Paddle OcrがWaveSpeedAIに登場

PaddleOCR-VLをご紹介：WaveSpeedAIに登場した超小型ドキュメント解析の強力なツール

WaveSpeedAIでPaddleOCR-VLが利用可能になったことをお知らせします。Baiduの PaddlePaddleチームが開発したこの革新的な0.9Bパラメータのビジョン言語モデルは、ドキュメント解析技術の大きな進歩を表しています。最先端の精度を提供しながら、実用的で大量のデプロイメントに対応できるほど軽量です。

アーカイブのデジタル化、請求書からのデータ抽出、複雑な学術論文の解析など、あらゆることに対応し、109の言語にわたって優れた精度で処理します。

PaddleOCR-VLとは

PaddleOCR-VL（Vision-Language）は、多言語ドキュメント解析に特化した超小型のAIモデルです。2025年10月にリリースされたこのモデルは、NaViTスタイルの動的解像度ビジュアルエンコーダーとBaiduのERNIE-4.5-0.3B言語モデルを組み合わせ、光学文字認識のための強力かつ効率的なソリューションを実現しています。

PaddleOCR-VLが際立っている理由は、わずか0.9億個のパラメータでGPT-4oやGemini 2.5 Proなどのはるかに大きなモデルを上回るパフォーマンスを実現できることです。この効率性は、ドキュメントワークフローの高速処理とコスト削減に直接つながります。

このモデルは、RAGFlow、MinerU、Umi-OCR、OmniParserなど、複数の主要なオープンソースプロジェクトに既に採用されており、本番環境での信頼性と汎用性が実証されています。

主な機能

包括的な言語サポート

109言語に対応：中国語、英語、日本語、韓国語、アラビア語、ヒンディー語、ロシア語、タイ語など
複数の文字体系にシームレスに対応：ラテン文字、キリル文字、デーヴァナーガリー文字、アラビア文字など
多言語ドキュメントを扱う国際的な組織に最適

高度な要素認識

テキスト抽出：印刷、手書き、混合コンテンツに高い精度で対応
表認識：構造とセルの関係を保持
数式解析：数学および科学ドキュメント対応
グラフ解釈：ビジュアルデータを構造化情報に変換

柔軟な出力形式

Markdown出力：ドキュメントやコンテンツマイグレーションに最適な、人間にとって読みやすくフォーマットされたテキスト
JSON出力：位置情報とバウンディングボックスを含み、ダウンストリームシステムとの統合に対応

ベンチマーク最高水準のパフォーマンス

olmOCR-Benchで総合スコア80.0を達成
ArXivドキュメント解析（85.7）とヘッダー/フッター認識（97.0）で優れた成績
英語（0.118）と中国語（0.034）の手書きテキストの編集距離スコアで業界最高水準

使用例

ドキュメントのデジタル化

スキャンされたドキュメント、PDF、物理的なアーカイブを検索可能で編集可能なデジタル形式に変換します。PaddleOCR-VLは、完璧なオフィスドキュメントから品質が異なる歴史的資料まで、あらゆるものに対応します。

請求書および領収書処理

財務ドキュメントからのデータ抽出を自動化します。このモデルは明細、合計、日付、ベンダー情報を正確に抽出するため、会計の自動化と経費管理システムに理想的です。

学術および研究ドキュメント

数式、表、複数列のレイアウトを含む複雑な学術論文を解析します。PaddleOCR-VLはArXivドキュメント解析で85.7を獲得し、研究ワークフローに非常に適しています。

多言語コンテンツマイグレーション

グローバルに展開する組織は、複数の言語のドキュメントを統合できます。109言語のサポートにより、実質的にあらゆる市場のドキュメントを単一の統合パイプラインで処理できます。

名刺およびフォーム処理

連絡先情報、フォーム送信、構造化ドキュメントを迅速にデジタル化します。JSON出力形式により、抽出されたデータをCRMシステムとデータベースに直接ルーティングできます。

RAGパイプラインの強化

高品質の抽出されたテキストをレトリーバル拡張生成システムに供給します。PaddleOCR-VLがRAGFlowに採用されているのは、AI駆動型ナレッジベースの前処理ステップとしての有効性を示しています。

WaveSpeedAIで始める

WaveSpeedAIでPaddleOCR-VLを使用するのは簡単です。画像を提供し、希望の出力形式を選択するだけです：

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/paddle-ocr",
    {
        "image": "https://example.com/document.png",
        "output_format": "markdown"
    },
)

print(output["outputs"][0])

位置情報を含む構造化データの場合は、JSON出力に切り替えます：

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/paddle-ocr",
    {
        "image": "https://example.com/invoice.jpg",
        "output_format": "json"
    },
)

print(output["outputs"][0])

最高の結果を得るためのヒント

高解像度の画像を使用：可能な限り精度を向上させる
テキストと背景のコントラストを確保：認識精度の向上
スキューされたドキュメントを修正：最適な認識のため事前に処理
JSON形式を選択：テキスト位置またはバウンディングボックスが必要な場合、ダウンストリーム処理用
Markdown形式を選択：直接使用に適した、きれいで人間にとって読みやすい出力

WaveSpeedAIを選ぶ理由

WaveSpeedAIでPaddleOCR-VLを実行することで、自己ホストソリューションに比べ大きなメリットが得られます：

コールドスタートなし：リクエストは即座に処理開始
高速推論：ほとんどのドキュメントを1秒以下で処理
手頃な価格：1画像あたりわずか$0.005。1ドルで200ドキュメント処理可能
インフラストラクチャ管理なし：GPU プロビジョニングとモデルデプロイメントの複雑さをスキップ
REST API対応：あらゆるプログラミング言語またはワークフローとの簡単な統合

1画像あたり$0.005で、バッチ処理は非常に費用効率的になります。インフラストラクチャスケーリングや計算コストを心配することなく、数万のドキュメントを処理します。

今すぐテキスト抽出を始める

PaddleOCR-VLはドキュメント解析技術の最前線を表しており、実用的なデプロイメントに十分なほどコンパクトでありながら、その数倍のサイズのモデルを上回るほど強力です。109言語のサポートとテキスト、表、数式、グラフにまたがる認識機能により、ドキュメントワークフローに必要な汎用的なソリューションです。

ドキュメント処理の方法を変革する準備はできていますか？WaveSpeedAIでPaddleOCR-VLを試してください。最先端のOCRと、プロジェクトに値するスピードとシンプルさを体験してください。