Memperkenalkan WaveSpeedAI Paddle OCR di WaveSpeedAI

Memperkenalkan PaddleOCR-VL: Powerhouse Parsing Dokumen Ultra-Kompak Kini di WaveSpeedAI

Kami dengan senang hati mengumumkan bahwa PaddleOCR-VL kini tersedia di WaveSpeedAI. Model vision-language berparameter 0,9B yang terobosan ini dari tim PaddlePaddle Baidu merepresentasikan lompatan besar dalam teknologi parsing dokumen—memberikan akurasi canggih sambil tetap cukup ringan untuk deployment praktis dan bervolume tinggi.

Apakah Anda mendigitalisasi arsip, mengekstrak data dari faktur, atau mengurai makalah akademis kompleks, PaddleOCR-VL menangani semuanya dengan presisi luar biasa di 109 bahasa.

Apa itu PaddleOCR-VL?

PaddleOCR-VL (Vision-Language) adalah model AI ultra-kompak yang dirancang khusus untuk parsing dokumen multibahasa. Dirilis pada Oktober 2025, model ini menggabungkan visual encoder resolusi dinamis gaya NaViT dengan model bahasa ERNIE-4.5-0.3B Baidu untuk menciptakan solusi yang kuat namun efisien untuk pengenalan karakter optik.

Yang membuat PaddleOCR-VL luar biasa adalah kemampuannya mencapai performa yang melampaui model yang jauh lebih besar seperti GPT-4o dan Gemini 2.5 Pro—semua dengan hanya 0,9 miliar parameter. Efisiensi ini diterjemahkan langsung ke dalam pemrosesan lebih cepat dan biaya lebih rendah untuk alur kerja dokumen Anda.

Model ini telah diadopsi oleh beberapa proyek open-source besar termasuk RAGFlow, MinerU, Umi-OCR, dan OmniParser, menunjukkan keandalan dan keserbagunaannya di lingkungan produksi.

Fitur Utama

Dukungan Bahasa Komprehensif

109 bahasa tercakup, termasuk Cina, Inggris, Jepang, Korea, Arab, Hindi, Rusia, Thai, dan puluhan lainnya
Menangani beberapa skrip dengan mulus: Latin, Cyrillic, Devanagari, Arab, dan seterusnya
Sempurna untuk organisasi global yang menangani dokumentasi multibahasa

Pengenalan Elemen Lanjutan

Ekstraksi teks dengan akurasi tinggi pada konten cetak, tulisan tangan, dan campuran
Pengenalan tabel yang mempertahankan struktur dan hubungan sel
Parsing formula untuk dokumen matematika dan sains
Interpretasi bagan yang mengonversi data visual menjadi informasi terstruktur

Format Output Fleksibel

Output Markdown untuk teks yang dapat dibaca manusia dan terformat, ideal untuk migrasi dokumentasi dan konten
Output JSON dengan informasi posisi dan kotak pembatas untuk integrasi dengan sistem hilir

Performa Terdepan di Benchmark

Mencapai skor keseluruhan tertinggi 80,0 di olmOCR-Bench
Unggul dalam parsing dokumen ArXiv (85,7) dan pengenalan header/footer (97,0)
Skor jarak edit terbaik di kelasnya untuk teks tulisan tangan Inggris (0,118) dan Cina (0,034)

Kasus Penggunaan

Digitalisasi Dokumen

Transformasikan dokumen terpindai, PDF, dan arsip fisik menjadi format digital yang dapat dicari dan dapat diedit. PaddleOCR-VL menangani semuanya dari dokumen kantor yang sempurna hingga materi historis yang menantang dengan kualitas yang bervariasi.

Pemrosesan Faktur dan Tanda Terima

Otomatisasi ekstraksi data dari dokumen keuangan. Model ini secara akurat menangkap item baris, total, tanggal, dan informasi vendor—menjadikannya ideal untuk otomasi akuntansi dan sistem manajemen pengeluaran.

Dokumen Akademis dan Penelitian

Parsing makalah akademis kompleks dengan formula matematika, tabel, dan tata letak multi-kolom. PaddleOCR-VL mendapat skor 85,7 dalam parsing dokumen ArXiv, menjadikannya sangat sesuai untuk alur kerja penelitian.

Migrasi Konten Multibahasa

Organisasi yang beroperasi secara global dapat mengkonsolidasikan dokumentasi di berbagai bahasa. Dukungan untuk 109 bahasa berarti Anda dapat memproses dokumen dari hampir semua pasar dalam satu pipeline terpadu.

Pemrosesan Kartu Nama dan Formulir

Digitalisasi dengan cepat informasi kontak, pengajuan formulir, dan dokumen terstruktur. Format output JSON memudahkan untuk mengarahkan data yang diekstrak langsung ke sistem CRM dan database.

Peningkatan Pipeline RAG

Umpankan teks ekstrak berkualitas tinggi ke dalam sistem generasi yang ditingkatkan dengan pengambilan. Adopsi PaddleOCR-VL oleh RAGFlow menunjukkan efektivitasnya sebagai langkah pra-pemrosesan untuk basis pengetahuan bertenaga AI.

Memulai di WaveSpeedAI

Menggunakan PaddleOCR-VL di WaveSpeedAI itu mudah. Cukup sediakan gambar dan pilih format output pilihan Anda:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/paddle-ocr",
    {
        "image": "https://example.com/document.png",
        "output_format": "markdown"
    },
)

print(output["outputs"][0])

Untuk data terstruktur dengan informasi posisi, beralih ke output JSON:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/paddle-ocr",
    {
        "image": "https://example.com/invoice.jpg",
        "output_format": "json"
    },
)

print(output["outputs"][0])

Tip untuk Hasil Terbaik

Gunakan gambar resolusi tinggi jika memungkinkan untuk akurasi yang ditingkatkan
Pastikan kontras yang baik antara teks dan latar belakang
Luruskan dokumen yang miring sebelum pemrosesan untuk pengenalan optimal
Pilih format JSON saat Anda memerlukan posisi teks atau kotak pembatas untuk pemrosesan hilir
Pilih format Markdown untuk output bersih dan dapat dibaca manusia yang cocok untuk penggunaan langsung

Mengapa WaveSpeedAI?

Menjalankan PaddleOCR-VL di WaveSpeedAI memberi Anda keuntungan signifikan dibandingkan solusi yang di-host sendiri:

Tidak ada cold start: Permintaan Anda mulai diproses segera
Inferensi cepat: Pemrosesan sub-detik untuk sebagian besar dokumen
Harga terjangkau: Hanya $0,005 per gambar—proses 200 dokumen untuk satu dolar
Tidak ada manajemen infrastruktur: Lewati kompleksitas provisioning GPU dan deployment model
REST API siap: Integrasi sederhana dengan bahasa pemrograman atau alur kerja apa pun

Pada $0,005 per gambar, pemrosesan batch menjadi sangat hemat biaya. Proses puluhan ribu dokumen tanpa khawatir tentang penskalaan infrastruktur atau biaya komputasi.

Mulai Ekstrak Teks Hari Ini

PaddleOCR-VL mewakili teknologi parsing dokumen terdepan—cukup kompak untuk deployment praktis, cukup kuat untuk melampaui performa model yang berkali-kali lipat lebih besar. Dengan dukungan untuk 109 bahasa dan kemampuan pengenalan mencakup teks, tabel, formula, dan bagan, ini adalah solusi serba guna yang dibutuhkan alur kerja dokumen Anda.

Siap untuk mengubah cara Anda menangani pemrosesan dokumen? Coba PaddleOCR-VL di WaveSpeedAI dan alami OCR canggih dengan kecepatan dan kesederhanaan yang layak didapat proyek Anda.