介绍 PaddleOCR-VL：超紧凑文档解析强大工具现已登陆 WaveSpeedAI

我们很高兴宣布 PaddleOCR-VL 现已在 WaveSpeedAI 上推出。这款来自百度 PaddlePaddle 团队的突破性 0.9B 参数视觉-语言模型代表了文档解析技术的重大飞跃——在保持轻量级足以适用于实际高容量部署的同时，提供最先进的准确性。

无论您是在数字化档案、从发票中提取数据，还是解析复杂的学术论文，PaddleOCR-VL 都能以令人瞩目的精度在 109 种语言中处理所有这些任务。

PaddleOCR-VL 是什么？

PaddleOCR-VL（视觉-语言）是一款专门为多语言文档解析设计的超紧凑 AI 模型。发布于 2025 年 10 月，它结合了 NaViT 风格的动态分辨率视觉编码器与百度的 ERNIE-4.5-0.3B 语言模型，创造出一个强大而高效的光学字符识别解决方案。

PaddleOCR-VL 的独特之处在于它能够实现超越 GPT-4o 和 Gemini 2.5 Pro 等大得多的模型的性能——仅需 0.9 亿个参数。这种效率直接转化为您文档工作流的处理速度提升和成本降低。

该模型已被包括 RAGFlow、MinerU、Umi-OCR 和 OmniParser 在内的多个主要开源项目采用，证明了其在生产环境中的可靠性和多功能性。

主要特性

全面的语言支持

覆盖 109 种语言，包括中文、英文、日文、韩文、阿拉伯文、印地文、俄文、泰文及数十种其他语言
无缝处理多种文字系统：拉丁字母、西里尔字母、天城文、阿拉伯字母及更多
完美适合处理多语言文档的全球组织

高级元素识别

文本提取在印刷、手写和混合内容上具有高准确度
表格识别保留结构和单元格关系
公式解析用于数学和科学文档
图表解释将视觉数据转换为结构化信息

灵活的输出格式

Markdown 输出提供人类可读、格式化的文本，非常适合文档和内容迁移
JSON 输出包含位置信息和边界框，便于与下游系统集成

基准领先的性能

在 olmOCR-Bench 上获得最高综合评分 80.0
在 ArXiv 文档解析（85.7）和页眉/页脚识别（97.0）上表现优异
在英文（0.118）和中文（0.034）手写文本编辑距离评分中同样出色

使用场景

文档数字化

将扫描文档、PDF 和物理档案转换为可搜索、可编辑的数字格式。PaddleOCR-VL 能处理从完美的办公文档到具有不同质量的具有挑战性的历史材料的所有内容。

发票和收据处理

自动化从财务文档中提取数据。该模型准确捕获行项目、总计、日期和供应商信息——是会计自动化和费用管理系统的理想之选。

学术和研究文档

解析包含数学公式、表格和多栏布局的复杂学术论文。PaddleOCR-VL 在 ArXiv 文档解析上的评分为 85.7，使其特别适合研究工作流。

多语言内容迁移

跨语言运营的全球组织可以整合文档。支持 109 种语言意味着您可以在单个统一的管道中处理来自几乎任何市场的文档。

名片和表格处理

快速数字化联系信息、表格提交和结构化文档。JSON 输出格式使得将提取的数据直接路由到 CRM 系统和数据库变得容易。

RAG 管道增强

将高质量的提取文本输入到检索增强生成系统。PaddleOCR-VL 被 RAGFlow 采用证明了其作为 AI 驱动知识库预处理步骤的有效性。

在 WaveSpeedAI 上入门

在 WaveSpeedAI 上使用 PaddleOCR-VL 很简单。只需提供一张图像并选择您喜欢的输出格式：

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/paddle-ocr",
    {
        "image": "https://example.com/document.png",
        "output_format": "markdown"
    },
)

print(output["outputs"][0])

对于包含位置信息的结构化数据，切换到 JSON 输出：

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/paddle-ocr",
    {
        "image": "https://example.com/invoice.jpg",
        "output_format": "json"
    },
)

print(output["outputs"][0])

最佳结果的提示

尽可能使用高分辨率图像以提高准确度
确保文本和背景之间有良好的对比度
在处理前纠正倾斜的文档以获得最优识别效果
当您需要文本位置或边界框以供下游处理时选择 JSON 格式
选择 Markdown 格式获得适合直接使用的干净、人类可读的输出

为什么选择 WaveSpeedAI？

在 WaveSpeedAI 上运行 PaddleOCR-VL 相比自托管解决方案具有显著优势：

无冷启动：您的请求立即开始处理
快速推理：大多数文档的处理时间不到一秒
价格低廉：每张图像仅需 $0.005——用一美元处理 200 份文档
无基础设施管理：跳过 GPU 供应和模型部署的复杂性
REST API 就绪：与任何编程语言或工作流简单集成

以每张图像 $0.005 的价格，批量处理变得极其经济高效。处理数万份文档时无需担心基础设施扩展或计算成本。

今天开始提取文本

PaddleOCR-VL 代表了文档解析技术的最前沿——紧凑到足以实际部署，强大到可以超越其大小许多倍的模型。凭借对 109 种语言的支持以及跨越文本、表格、公式和图表的识别能力，它是您文档工作流所需的多功能解决方案。

准备改变您处理文档的方式？在 WaveSpeedAI 上试用 PaddleOCR-VL 并体验最先进的 OCR，以及您项目所值得的速度和简洁性。