WaveSpeedAI에 PaddleOCR-VL 소개: 초소형 문서 파싱 강자

WaveSpeedAI에서 PaddleOCR-VL을 사용할 수 있게 되었습니다. Baidu의 PaddlePaddle 팀에서 개발한 이 획기적인 0.9B 파라미터 비전-랭귀지 모델은 문서 파싱 기술의 큰 도약을 나타내며, 최첨단 정확도를 제공하면서도 실용적이고 대량 배포에 충분할 정도로 가볍습니다.

아카이브 디지털화, 송장에서 데이터 추출, 복잡한 학술 논문 파싱 등 어떤 작업이든 PaddleOCR-VL은 109개 언어에 걸쳐 뛰어난 정확도로 모든 작업을 처리합니다.

PaddleOCR-VL이란?

PaddleOCR-VL (Vision-Language)은 다국어 문서 파싱을 위해 특별히 설계된 초소형 AI 모델입니다. 2025년 10월에 출시된 이 모델은 NaViT 스타일의 동적 해상도 시각 인코더와 Baidu의 ERNIE-4.5-0.3B 언어 모델을 결합하여 광학 문자 인식을 위한 강력하면서도 효율적인 솔루션을 제공합니다.

PaddleOCR-VL이 뛰어난 이유는 단 0.9억 개의 파라미터로 GPT-4o 및 Gemini 2.5 Pro 같은 훨씬 더 큰 모델을 능가하는 성능을 달성할 수 있다는 것입니다. 이러한 효율성은 더 빠른 처리와 문서 워크플로우의 낮은 비용으로 직결됩니다.

이 모델은 이미 RAGFlow, MinerU, Umi-OCR, OmniParser 등 여러 주요 오픈소스 프로젝트에 채택되었으며, 프로덕션 환경에서의 신뢰성과 다용성을 입증하고 있습니다.

주요 기능

포괄적인 언어 지원

109개 언어 지원, 중국어, 영어, 일본어, 한국어, 아랍어, 힌디어, 러시아어, 태국어 등 다수 포함
라틴, 키릴, 데바나가리, 아랍어 등 여러 문자 체계를 원활하게 처리
다국어 문서를 다루는 글로벌 조직에 이상적

고급 요소 인식

인쇄, 손글씨, 혼합 콘텐츠에 대한 높은 정확도의 텍스트 추출
구조와 셀 관계를 보존하는 표 인식
수학 및 과학 문서를 위한 수식 파싱
시각적 데이터를 구조화된 정보로 변환하는 차트 해석

유연한 출력 형식

문서 및 콘텐츠 마이그레이션에 이상적인 인간이 읽을 수 있는 형식의 Markdown 출력
다운스트림 시스템과의 통합을 위한 위치 정보 및 경계 상자가 포함된 JSON 출력

벤치마크 성능

olmOCR-Bench에서 80.0의 최고 종합 점수 달성
ArXiv 문서 파싱(85.7)과 머리글/바닥글 인식(97.0)에서 탁월함
영문(0.118) 및 중문(0.034) 손글씨 편집 거리 점수에서 업계 최고

사용 사례

문서 디지털화

스캔한 문서, PDF, 물리적 아카이브를 검색 가능하고 편집 가능한 디지털 형식으로 변환합니다. PaddleOCR-VL은 깨끗한 사무 문서에서 다양한 품질의 역사적 자료까지 모든 것을 처리합니다.

송장 및 영수증 처리

재무 문서에서 데이터 추출을 자동화합니다. 이 모델은 라인 항목, 합계, 날짜, 공급업체 정보를 정확하게 캡처하여 회계 자동화 및 비용 관리 시스템에 이상적입니다.

학술 및 연구 문서

수학 수식, 표, 다단 레이아웃이 포함된 복잡한 학술 논문을 파싱합니다. PaddleOCR-VL은 ArXiv 문서 파싱에서 85.7을 기록했으며, 연구 워크플로우에 매우 적합합니다.

다국어 콘텐츠 마이그레이션

전 세계에서 운영하는 조직은 여러 언어의 문서를 통합할 수 있습니다. 109개 언어 지원은 단일 통합 파이프라인에서 거의 모든 시장의 문서를 처리할 수 있음을 의미합니다.

명함 및 양식 처리

연락처 정보, 양식 제출, 구조화된 문서를 빠르게 디지털화합니다. JSON 출력 형식을 사용하면 추출된 데이터를 CRM 시스템 및 데이터베이스로 직접 라우팅할 수 있습니다.

RAG 파이프라인 강화

고품질 추출 텍스트를 검색 증강 생성 시스템에 공급합니다. RAGFlow에 의한 PaddleOCR-VL 채택은 AI 기반 지식 기반의 전처리 단계로서의 효과를 입증합니다.

WaveSpeedAI에서 시작하기

WaveSpeedAI에서 PaddleOCR-VL을 사용하는 것은 간단합니다. 이미지를 제공하고 원하는 출력 형식을 선택하면 됩니다:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/paddle-ocr",
    {
        "image": "https://example.com/document.png",
        "output_format": "markdown"
    },
)

print(output["outputs"][0])

위치 정보가 포함된 구조화된 데이터의 경우 JSON 출력으로 전환합니다:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/paddle-ocr",
    {
        "image": "https://example.com/invoice.jpg",
        "output_format": "json"
    },
)

print(output["outputs"][0])

최적의 결과를 위한 팁

정확도 향상을 위해 가능하면 고해상도 이미지 사용
최적의 인식을 위해 텍스트와 배경 사이의 좋은 명암 유지
처리 전 기울어진 문서 펴기
다운스트림 처리를 위해 텍스트 위치 또는 경계 상자가 필요한 경우 JSON 형식 선택
직접 사용에 적합한 깔끔하고 인간이 읽을 수 있는 출력을 위해 Markdown 형식 선택

WaveSpeedAI를 선택하는 이유

WaveSpeedAI에서 PaddleOCR-VL을 실행하면 자체 호스팅 솔루션에 비해 상당한 이점을 제공합니다:

콜드 스타트 없음: 요청이 즉시 처리 시작
빠른 추론: 대부분의 문서에 대해 1초 미만의 처리
저렴한 가격: 이미지당 $0.005만 부담하면 100달러로 20,000개 문서 처리 가능
인프라 관리 없음: GPU 프로비저닝 및 모델 배포의 복잡성 제거
REST API 준비: 모든 프로그래밍 언어 또는 워크플로우와 간단한 통합

이미지당 $0.005의 가격으로 대량 처리가 매우 경제적입니다. 인프라 확장 또는 계산 비용 걱정 없이 수천 개의 문서를 처리하세요.

오늘부터 텍스트 추출 시작

PaddleOCR-VL은 문서 파싱 기술의 최첨단을 나타냅니다. 실용적인 배포에 충분히 소형이면서도 자신의 수십 배 크기의 모델을 능가할 정도로 강력합니다. 109개 언어 지원과 텍스트, 표, 수식, 차트에 걸친 인식 기능으로 문서 워크플로우에 필요한 다용도 솔루션입니다.

문서 처리 방식을 변환할 준비가 되셨나요? WaveSpeedAI에서 PaddleOCR-VL 체험하고 프로젝트가 원하는 속도와 단순성으로 최첨단 OCR을 경험하세요.