Harga API Qwen3.5-Omni, Batas Penggunaan, dan Opsi Deployment (2026)

Hei teman-teman! Ini Dora — berbagi kejutan saat saya melihat peluncuran Qwen3.5-Omni di akhir Maret. Saat itu, insting pertama saya bukan “wow, model keren.” tapi: berapa sebenarnya biaya per panggilan ini untuk saya?

Karena begini ceritanya — saya pernah terbakar sebelumnya. Saya membangun pipeline di atas API multimodal baru yang mengkilap, tidak membaca dokumen penagihan dengan cukup teliti, lalu menyaksikan tagihan bulanan saya berlipat empat begitu pemrosesan audio mencapai rentang konteks yang lebih panjang. Jadi kali ini, saya duduk dengan dokumen harga DashScope dan referensi API resmi sebelum menulis satu baris kode integrasi pun.

Jika Anda adalah pemimpin teknik atau pengambil keputusan infrastruktur yang mengevaluasi apakah akan membangun di atas Qwen3.5-Omni atau meng-host-nya sendiri, ini mencakup hal-hal yang benar-benar penting untuk model biaya Anda — termasuk struktur harga yang sejujurnya tidak intuitif sampai Anda duduk bersama dengannya untuk beberapa saat.

Cara Qwen3.5-Omni Ditetapkan Harganya

Harga Bertingkat DashScope: Model Berbasis Token Input

Hal terpenting yang perlu dipahami sejak awal: DashScope tidak mengenakan tarif per token yang tetap. Untuk Qwen3.5-Omni (dan beberapa model Qwen lainnya termasuk qwen3.5-plus), harga bertingkat berdasarkan jumlah token input dalam permintaan saat ini. Bukan token sesi kumulatif — ukuran input permintaan tunggal yang menentukan bracket harga mana yang Anda masuki.

Ini tidak intuitif dan memiliki implikasi nyata. Permintaan 5K-token yang pendek dan permintaan 240K-token yang maksimal bukan hanya dihargai berbeda secara proporsional — keduanya masuk ke bracket tarif yang sepenuhnya berbeda. Struktur ini memberikan insentif untuk menjaga permintaan tetap pendek, yang bisa bertentangan langsung dengan alasan Anda menggunakan model konteks 256K sejak awal.

Halaman harga resmi DashScope menunjukkan struktur bertingkat ini yang diterapkan di seluruh keluarga model Qwen-Plus dan terkait. Harga spesifik per token audio dan frame video modalitas Omni didokumentasikan secara terpisah di bagian penagihan multimodal.

Plus vs. Flash vs. Light: Sebaran Biaya-Kinerja

Qwen3.5-Omni hadir dalam tiga varian dengan positioning yang berbeda:

Plus adalah model unggulan tolok ukur — inilah yang mengalahkan Gemini 3.1 Pro dalam pemahaman audio. Flash menukarkan sebagian kemampuan tersebut untuk latensi lebih rendah dan tentunya biaya per panggilan yang lebih rendah. Light adalah tier bobot terbuka: gratis untuk dijalankan, tetapi Anda yang mengelola infrastrukturnya.

Untuk pengguna API, keputusan praktisnya adalah Plus vs. Flash. Jika kasus penggunaan Anda adalah transkripsi akurasi tinggi dari rekaman panjang atau kloning suara untuk produk yang menghadap pelanggan, Plus adalah pilihan yang tepat. Jika Anda melakukan percakapan waktu nyata dengan anggaran latensi yang lebih ketat, Flash layak dicoba terlebih dahulu.

Kuota Gratis: Apa yang Termasuk dan Kapan Habis

Akun DashScope baru di wilayah Internasional (endpoint Singapura) mendapatkan kuota gratis sebesar 1 juta token input dan 1 juta token output, berlaku selama 90 hari setelah mengaktifkan Model Studio. Mode deployment Global (US Virginia) tidak memiliki kuota gratis — hal ini penting jika tim Anda berbasis di AS dan ingin melakukan pengujian dari endpoint terdekat.

Habiskan kuota gratis itu lebih cepat dari yang Anda perkirakan jika Anda menjalankan pengujian yang banyak menggunakan audio. Satu file audio berdurasi 10 jam mencapai batas konteks penuh 256K, yang saja mengonsumsi sekitar 256K dari kuota input 1M token Anda dalam satu permintaan.

Ekonomi Jendela Konteks

256K Token dalam Praktik: Jam Audio, Detik Video, dan Biaya Sebenarnya

Angka resminya adalah 256K token dapat menangani “lebih dari 10 jam audio berkelanjutan” atau “sekitar 400 detik video 720p dengan audio.” Mari kita terjemahkan ke dalam intuisi biaya.

Audio ditokenisasi pada sekitar 25.600 token per jam (256K ÷ 10 jam). Itu kira-kira 427 token per menit audio. Untuk video pada sampling 1 FPS, 400 detik konten 720p memenuhi seluruh konteks.

Membandingkan ini dengan bracket harga bertingkat, pertimbangkan dua skenario:

Permintaan pendek (mis., klip rapat 5 menit ≈ ~2.100 token): Masuk ke tier harga terendah. Murah per panggilan.

Permintaan panjang (mis., podcast 3 jam ≈ ~77.000 token): Menyeberangi ke bracket tier menengah. Tarif per token naik, sehingga biaya per menit audio Anda secara bermakna lebih tinggi daripada skenario permintaan pendek — bukan karena Anda menggunakan lebih banyak token, tetapi karena tier-nya berbeda.

Permintaan mendekati maksimum (mis., file audio 8 jam ≈ ~205.000 token): Anda berada di tier tertinggi. Seharian penuh audio dengan harga bracket teratas akan jauh lebih mahal dibandingkan 40 klip 12 menit yang setara yang diproses satu per satu. Inilah keputusan arsitektural yang dipaksakan oleh model bertingkat: menggabungkan input panjang vs. memotong-motong.

Bagi pembangun yang memproses audio bervolume tinggi, memotong-motong mungkin sebenarnya lebih murah daripada mengeksploitasi jendela konteks penuh — yang ironisnya, karena konteks besar adalah sebagian dari nilai jualnya.

Kapan Input Audio Konteks Panjang Menjadi Mahal

Ada titik impas di suatu tempat antara konteks pendek dan panjang di mana pemotongan menang dalam hal biaya. Angka pastinya bergantung pada harga modalitas spesifik Anda (tarif token audio berbeda dari tarif token teks dalam penagihan DashScope), jadi saya sarankan menjalankan kalkulator cepat sebelum berkomitmen pada arsitektur: masukkan distribusi panjang audio yang Anda harapkan melalui formula harga bertingkat dan pendekatan berbasis potongan.

Batas Kecepatan dan Throughput

Apa yang Diketahui Tentang Batas QPS / Konkurensi

Spesifik batas kecepatan untuk Qwen3.5-Omni tidak didokumentasikan secara publik dengan detail yang sama seperti model teks saja. Pola umum DashScope untuk pengguna API adalah batas QPS (kueri per detik) dan konkurensi yang diterapkan di tingkat akun, dapat disesuaikan melalui permintaan peningkatan kuota untuk akun enterprise. Jika Anda memerlukan angka yang dikonfirmasi untuk perencanaan kapasitas, ajukan permintaan peningkatan kuota ke dukungan DashScope — mereka akan merespons dengan batas aktual untuk tier akun Anda.

Endpoint DashScope Internasional vs. Daratan China

Ada tiga wilayah endpoint utama yang perlu diketahui tim non-China:

Internasional (Singapura): https://dashscope-intl.aliyuncs.com/compatible-mode/v1 — data dan endpoint di Singapura, inferensi dijadwalkan secara global (tidak termasuk daratan China). Ini adalah default untuk sebagian besar pembangun internasional. Kuota gratis berlaku.
Global (US Virginia / Jerman Frankfurt): https://dashscope-us.aliyuncs.com/compatible-mode/v1 — data dan endpoint di wilayah US Virginia, komputasi dijadwalkan secara global. Tidak ada kuota gratis. Lebih baik untuk persyaratan latensi berbasis AS.
Daratan China (Beijing): https://dashscope.aliyuncs.com/compatible-mode/v1 — terbatas untuk tim yang beroperasi di dalam China. Harga per token yang jauh lebih rendah.

Ketersediaan Wilayah AS (Endpoint Virginia)

Endpoint AS (Virginia) tersedia untuk model teks Qwen. Per saat ini, konfirmasi langsung melalui referensi API DashScope apakah inferensi multimodal Qwen3.5-Omni dirutekan melalui endpoint AS atau kembali ke Singapura. Pola endpoint multimodal umum adalah:

POST https://dashscope-us.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

Untuk tim dengan persyaratan residensi data, klarifikasikan dengan Alibaba Cloud apakah konten audio/video yang diproses melalui endpoint AS disimpan di luar AS pada titik mana pun dalam pipeline inferensi.

Self-Hosting dengan vLLM

Mengapa Tim Qwen Merekomendasikan vLLM daripada HuggingFace Transformers untuk MoE

Qwen3.5-Omni-Plus menggunakan arsitektur Hybrid-Attention Mixture-of-Experts (MoE). Tim Qwen secara eksplisit merekomendasikan vLLM daripada HuggingFace Transformers untuk beban kerja produksi apa pun — dan alasannya spesifik pada MoE: routing expert dalam model MoE menyebabkan pola akses memori yang tidak beraturan yang tidak dioptimalkan dengan baik oleh HuggingFace Transformers. PagedAttention dan penjadwalan berbasis MoE dari vLLM menangani ini jauh lebih baik, yang menghasilkan perbedaan throughput nyata saat beban. Untuk invokasi skala besar atau persyaratan latensi rendah, panduan resminya adalah vLLM atau API DashScope langsung — bukan Transformers mentah.

Persyaratan Infrastruktur untuk Plus (Kelas 30B-A3B)

Varian Plus (total 30B parameter, 3B aktif per token) membutuhkan setidaknya 40GB VRAM untuk inferensi yang nyaman dalam BF16. Dalam praktiknya:

A100 80GB tunggal: Layak untuk Plus dalam kuantisasi FP8 atau INT8. BF16 pada konteks penuh cukup ketat.
H100 80GB tunggal: Nyaman dalam BF16 dengan ruang untuk KV cache pada konteks yang lebih pendek.
RTX 4090 (24GB): Tidak cukup untuk Plus. Bekerja untuk varian Flash atau Light dengan kuantisasi.

Untuk model Omni secara khusus, Anda juga perlu memperhitungkan memori codec audio komponen Talker — ini bukan hanya bobot model bahasa. RTX 4090D 48GB VRAM telah dilaporkan menjalankan Qwen3-Omni 30B-A3B pada kuantisasi AWQ 4-bit, tetapi dengan headroom KV cache minimal dan throughput sekitar 64 token/s generasi.

Ketersediaan dan Pengaturan Docker Image

Tim Qwen menyediakan Docker image yang menggabungkan runtime lengkap untuk HuggingFace Transformers dan vLLM. Gunakanlah — menyiapkan fork vLLM spesifik Omni (cabang qwen3_omni) secara manual cukup rumit. Instalasi dengan stack resmi:

# Clone fork vLLM spesifik Omni
git clone -b qwen3_omni https://github.com/wangxiongts/vllm.git
cd vllm

# Install dependensi
pip install -r requirements/build.txt
pip install -r requirements/cuda.txt
VLLM_USE_PRECOMPILED=1 pip install -e . -v --no-build-isolation

# Install paket yang diperlukan
pip install transformers==4.57.3 accelerate
pip install qwen-omni-utils -U
pip install -U flash-attn --no-build-isolation

Kemudian jalankan:

vllm serve Qwen/Qwen3-Omni-30B-A3B-Instruct \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.90 \
  --max-model-len 32768

Batas max-model-len 32768 praktis untuk pengaturan GPU tunggal — mendorong ke konteks 256K pada satu kartu 80GB memerlukan kuantisasi agresif dan secara signifikan membatasi ukuran batch. Sesuai dokumentasi deployment vLLM sendiri, PagedAttention menangani memori KV cache secara efisien, tetapi model audio-visual dengan output talker multi-codebook memiliki tekanan KV cache yang lebih tinggi dibandingkan ekuivalen teks saja.

API DashScope vs. Self-Hosting: Kerangka Keputusan

Kapan DashScope Masuk Akal

Anda perlu masuk produksi dalam hitungan hari, bukan minggu
Volume token bulanan Anda di bawah ~50 juta token (ekonomi unit API masih menguntungkan)
Anda tidak memiliki infrastruktur GPU dan tidak ingin membangunnya
Fitur kloning suara penting — hanya tersedia di Plus dan Flash melalui API; bobot terbuka Light tidak mengeksposnya
Anda memerlukan routing data regional Singapura atau AS dengan jaminan kontraktual

Kapan Self-Hosting Masuk Akal

Volume bulanan secara konsisten di atas 50-100 juta token dan biaya per token bermakna
Persyaratan residensi data yang tidak dipenuhi endpoint regional DashScope
Kontrol latensi untuk target respons sub-200ms yang bergantung pada co-location
Anda menjalankan beban kerja tier Flash atau Light di mana hardware sesuai dengan armada yang sudah ada
Fine-tuning kustom atau modifikasi model (hanya memungkinkan dengan bobot terbuka — tier Light)

Titik infleksi praktis: pada volume tinggi, menjalankan Plus di H100 dedicated dengan biaya cloud ~$2-3/jam menjadi lebih murah dibandingkan tarif per panggilan DashScope. Kalkulasinya berubah tergantung pada utilisasi — GPU yang menganggur 40% dari waktu mengubah perhitungan secara signifikan.

Pertimbangan Biaya Tersembunyi

Overhead Preprocessing Audio/Video

Audio yang dikirim ke Qwen3.5-Omni perlu dalam format yang tepat sebelum mencapai API. Library qwen-omni-utils menangani resampling, normalisasi channel, dan encoding potongan — tetapi preprocessing tersebut menambahkan latensi dan komputasi di sisi Anda. Untuk video, sampling 1 FPS pada 720p adalah tingkat referensi yang didokumentasikan, tetapi ekstraksi frame aktual dari format video arbitrer memerlukan FFmpeg atau yang setara. Faktorkan ini ke dalam anggaran latensi per panggilan Anda.

Output Ucapan Streaming dan Biaya Per Panggilan

Arsitektur Thinker-Talker melakukan streaming output ucapan secara real time — byte audio pertama tiba sebelum respons penuh dihasilkan, itulah yang membuat percakapan suara langsung terasa alami. Tetapi streaming menambahkan overhead per panggilan: koneksi tetap terbuka lebih lama, dan codec audio (renderer Code2Wav) menghasilkan urutan multi-codebook yang berkontribusi pada jumlah token output. Jika Anda menggunakan mode output ucapan, jumlah token output efektif Anda lebih tinggi daripada mode teks saja untuk respons dasar yang sama. Periksa apakah DashScope menagih token output ucapan dengan tarif yang sama dengan token output teks — dokumentasi penagihan membedakan modalitas di bagian harga multimodal.

FAQ

Apakah ada tier gratis untuk Qwen3.5-Omni di DashScope?

Ya, untuk wilayah Internasional (endpoint Singapura). Akun baru mendapatkan 1 juta token input dan 1 juta token output gratis, berlaku 90 hari setelah mengaktifkan Model Studio. Mode deployment Global (Virginia) AS tidak memiliki kuota gratis.

Berapa batas kecepatan pada API DashScope?

Tidak didokumentasikan secara publik pada angka QPS spesifik untuk Qwen3.5-Omni per Maret 2026. Batas default berlaku saat pembuatan akun; hubungi dukungan DashScope dengan throughput yang Anda harapkan untuk meminta peningkatan kuota sebelum masuk produksi.

Bisakah saya menjalankan Qwen3.5-Omni-Plus pada A100 tunggal?

Dalam kuantisasi FP8 atau INT8, ya — A100 80GB dapat menjalankan Plus dengan headroom KV cache yang terbatas. Dalam BF16 pada konteks 256K, tidak. Perkirakan untuk membatasi max-model-len ke sekitar 32K–64K pada GPU 80GB tunggal untuk mempertahankan throughput yang stabil.

Posting Sebelumnya: