← Blog

Memperkenalkan WaveSpeedAI Cosmos Predict 2.5 Text-to-Video di WaveSpeedAI

Cosmos Predict 2.5 Text-to-Video menghasilkan video dari prompt teks menggunakan Model Cosmos Post-Trained 2B NVIDIA. API inferensi REST siap pakai, performa terbaik

7 min read
Wavespeed Ai Cosmos Predict.2.5 Text To Video
Wavespeed Ai Cosmos Predict.2.5 Text To Video Cosmos Predict 2.5 Text-to-Video menghasilkan video dari pro...
Try it
Memperkenalkan WaveSpeedAI Cosmos Predict 2.5 Text-to-Video di WaveSpeedAI

Dimensi Baru Generasi Video AI Hadir di WaveSpeedAI

Batas antara imajinasi dan kenyataan semakin tipis. NVIDIA Cosmos Predict 2.5 Text-to-Video kini telah hadir di WaveSpeedAI — memberikan kemampuan kepada para kreator dan pengembang untuk menghasilkan klip video sinematik hanya dari deskripsi teks, didukung oleh teknologi world foundation model NVIDIA, tanpa cold start dan dengan harga flat yang sederhana.

Cosmos Predict 2.5 bukan sekadar model text-to-video biasa. Ini adalah World Foundation Model — sebuah sistem yang dirancang untuk mensimulasikan dan memprediksi dunia fisik. Dilatih dengan 200 juta klip video yang dikurasi dan disempurnakan melalui post-training berbasis reinforcement learning, model ini menghasilkan video yang mematuhi hukum fisika. Hujan jatuh ke bawah. Daun berguguran dengan meyakinkan tertiup angin. Cahaya menyebar melalui kabut seperti di dunia nyata. Hasilnya adalah video yang tidak hanya terlihat bagus — tetapi terlihat benar.

Apa Itu Cosmos Predict 2.5 Text-to-Video?

Cosmos Predict 2.5 Text-to-Video menghasilkan klip video yang mulus dan beresolusi tinggi hanya dari deskripsi bahasa alami. Tidak perlu gambar referensi, storyboard, atau footage sumber. Deskripsikan sebuah adegan — “jalan Tokyo yang ramai di senja hari, papan neon terpantul di trotoar basah hujan, pejalan kaki membawa payung” — dan model ini menciptakan klip video sinematik yang menghidupkan kata-kata Anda dengan gerakan, pencahayaan, dan efek atmosfer yang realistis.

Model ini dibangun di atas arsitektur Cosmos Post-Trained 2B parameter milik NVIDIA, sebuah model difusi berbasis aliran yang menyatukan kemampuan text-to-video, image-to-video, dan video-to-video dalam satu sistem. Yang membedakannya dari model generasi video lainnya adalah encoder teksnya: Cosmos-Reason1, sebuah model bahasa visi penalaran Physical AI yang tidak sekadar mengurai prompt Anda — melainkan bernalar tentang kelayakan fisik dari adegan yang Anda deskripsikan. Ketika Anda menulis “daun-daun musim gugur berputar jatuh dari pohon maple,” model ini memahami bahwa daun tidak jatuh dalam garis lurus, bahwa angin menciptakan pola yang asimetris, dan bahwa cahaya yang menyaring melalui kanopi menciptakan bayangan yang bergerak di tanah.

Pada evaluasi PAI-Bench NVIDIA, model Cosmos Predict 2.5-2B post-trained mencapai performa yang sebanding dengan model yang berukuran jauh lebih besar. Meski hanya memiliki 2 miliar parameter, model ini menyamai kualitas model Wan 2.2 5B dan Wan 2.1 14B pada kumpulan prompt yang beragam — dan memimpin bidang ini dalam tugas Image-to-World dengan skor keseluruhan tertinggi 0,810. Efisiensi ini diterjemahkan langsung menjadi inferensi yang lebih cepat dan biaya yang lebih rendah untuk Anda.

Fitur Utama

  • Arsitektur World Foundation Model: Dibangun di atas platform Cosmos NVIDIA yang dibuat khusus, dilatih secara spesifik untuk memahami cara kerja dunia fisik — bukan hanya tampilannya, tetapi bagaimana ia bergerak, bagaimana cahaya berperilaku, dan bagaimana objek berinteraksi.
  • Generasi Berbasis Fisika: Air mengalir secara alami, kain terlihat meyakinkan, bayangan mengikuti sumber cahaya, dan efek atmosfer seperti kabut, hujan, dan debu berperilaku secara realistis. Model ini bernalar tentang kelayakan fisik alih-alih menghasilkan gerakan sembarangan.
  • Pure Text-to-Video: Hasilkan klip video lengkap hanya dari teks. Tidak perlu gambar referensi, frame awal, maupun input tambahan. Deskripsikan apa yang Anda inginkan dan dapatkan video yang sudah jadi.
  • Prompt Enhancer Bawaan: Tidak yakin bagaimana mendeskripsikan adegan yang ada di kepala Anda? Prompt Enhancer terintegrasi secara otomatis menyempurnakan deskripsi Anda, menambahkan detail sinematik, isyarat atmosfer, dan spesifikasi gerakan yang memunculkan performa terbaik model.
  • Penyempurnaan Reinforcement Learning: Dilatih pasca-pelatihan dengan model reward bergaya RLHF bernama VideoAlign yang mengevaluasi keselarasan teks, kualitas gerakan, dan ketelitian visual — memastikan model secara konsisten menghasilkan hasil berkualitas tinggi yang sesuai dengan niat Anda.
  • Harga Flat $0,25 Per Video: Setiap video dikenakan biaya yang sama persis. Tidak ada penagihan per detik, tidak ada tingkatan resolusi, tidak ada pengganda yang mengejutkan.

Kasus Penggunaan di Dunia Nyata

Generasi Adegan Sinematik

Cosmos Predict 2.5 unggul dalam konten atmosfer dan sinematik. Deskripsikan jalan kota yang basah oleh hujan di malam hari, hutan berkabut di fajar, atau jalan raya gurun di golden hour, dan model ini menghasilkan footage yang menyaingi syuting di lokasi. Pembuat film dan kreator konten dapat menghasilkan establishing shot, mood board, dan urutan konsep tanpa meninggalkan meja kerja mereka.

Konten Media Sosial dan Short-Form

Dengan harga $0,25 per video, Anda dapat dengan cepat membuat prototipe dan memproduksi konten menarik untuk Instagram Reels, TikTok, dan YouTube Shorts. Hasilkan berbagai variasi konsep, uji pendekatan visual yang berbeda dengan A/B test, dan rilis yang terbaik — semuanya melalui satu panggilan API. Harga flat membuat eksperimentasi hampir tanpa risiko.

Pemasaran dan Periklanan

Hasilkan konten video promosi dengan biaya sebagian kecil dari biaya produksi tradisional. Peluncuran produk, kampanye musiman, dan penceritaan merek semuanya menjadi lebih cepat ketika Anda bisa mendeskripsikan sebuah adegan dan mendapatkan video berkualitas produksi dalam hitungan detik. Tim pemasaran dapat mengulang konsep kreatif secara real-time alih-alih menunggu jadwal produksi.

Visualisasi Konsep dan Previzualisasi

Wujudkan ide kreatif sebelum berkomitmen pada produksi yang mahal. Sutradara dapat memvizualisasikan adegan sebelumnya, desainer game dapat membuat prototipe lingkungan, dan arsitek dapat menghasilkan panduan atmosfer — semuanya dari deskripsi teks. Kesadaran fisika model ini berarti pratinjau ini berakar pada realitas, menjadikannya berguna untuk pengambilan keputusan kreatif yang sesungguhnya.

Penceritaan dan Konten Naratif

Penulis dan desainer naratif dapat melihat cerita mereka menjadi kenyataan. Deskripsikan serangkaian adegan dan hasilkan pendamping visual untuk skrip, novel, presentasi, atau materi pendidikan. Pemahaman model tentang gerakan alami dan efek lingkungan menciptakan visual imersif yang memperkaya narasi apa pun.

Memulai di WaveSpeedAI

Menghasilkan video dengan Cosmos Predict 2.5 Text-to-Video hanya membutuhkan beberapa baris kode:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/cosmos-predict-2.5/text-to-video",
    {
        "prompt": "A quiet Japanese garden in autumn, golden maple leaves drifting slowly onto a still koi pond, soft afternoon light filtering through the canopy, gentle ripples spreading where each leaf touches the water",
    },
)

print(output["outputs"][0])

Tips untuk hasil terbaik:

  1. Jadilah spesifik dan deskriptif — sertakan detail tentang lingkungan, pencahayaan, cuaca, dan pergerakan kamera. “Lorong berbatu di Paris saat senja hujan, cahaya hangat tumpah dari jendela kafe, genangan air memantulkan papan neon, slow tracking shot” akan jauh mengungguli “jalan hujan.”
  2. Gunakan bahasa sinematik — istilah seperti “pencahayaan golden hour,” “tracking shot,” “slow pan,” “shallow depth of field,” dan “atmospheric haze” membantu model menghasilkan footage yang lebih halus dan terlihat profesional.
  3. Deskripsikan gerakan secara eksplisit — jangan hanya mengatur adegan. Beritahu model apa yang bergerak dan bagaimana: “daun berputar ke bawah,” “ombak menghantam bebatuan,” “uap naik dari secangkir kopi.”
  4. Coba Prompt Enhancer — jika hasil Anda tidak sesuai dengan visi Anda, aktifkan Prompt Enhancer bawaan untuk secara otomatis menambahkan detail sinematik dan kekhususan yang memunculkan karya terbaik model.
  5. Sertakan suasana dan atmosfer — nada emosional dan detail atmosfer seperti “melankolis,” “etherial,” “energi yang ramai,” atau “ketenangan yang tenang” memberikan arahan kreatif tambahan kepada model.

Harga yang Sederhana dan Dapat Diprediksi

OutputBiaya
Per video$0,25

Tidak ada penagihan per detik, tidak ada tingkatan resolusi, tidak ada biaya tersembunyi. Setiap video dikenakan biaya flat $0,25 — menjadikan Cosmos Predict 2.5 salah satu solusi text-to-video paling terjangkau yang tersedia pada tingkat kualitas ini.

Mengapa Memilih WaveSpeedAI untuk Cosmos Predict 2.5

  • Tanpa Cold Start: Setiap permintaan langsung mengenai instans yang hangat dan siap melayani. Generasi video Anda dimulai segera — tidak perlu menunggu pemuatan model atau penyediaan GPU.
  • REST API Siap Produksi: Endpoint yang bersih dan terdokumentasi dengan baik yang dapat diintegrasikan ke dalam tumpukan teknologi, pipeline konten, atau alur kerja otomatis apa pun dengan upaya integrasi minimal.
  • Skalabilitas Elastis: Baik Anda menghasilkan satu video per hari atau sepuluh ribu per jam, infrastruktur WaveSpeedAI mengikuti permintaan Anda dengan mulus.
  • Terjangkau di Semua Volume: Harga flat per video tanpa minimum, tanpa langganan, dan tanpa komitmen. Bayar hanya untuk apa yang Anda hasilkan.
  • Ekosistem Cosmos Lengkap: Akses keluarga lengkap Cosmos Predict 2.5 — termasuk Image-to-Video dan Video-to-Video — bersama model-model terkemuka lainnya seperti Wan 2.6 Text-to-Video, semuanya melalui satu API.

Mulai Berkreasi Hari Ini

NVIDIA Cosmos Predict 2.5 Text-to-Video sudah aktif dan siap digunakan di WaveSpeedAI. Baik Anda seorang kreator yang ingin mengubah ide menjadi footage sinematik, tim pemasaran yang ingin memperbesar produksi video, maupun pengembang yang membangun fitur video bertenaga AI ke dalam produk Anda, Cosmos Predict 2.5 menghadirkan kualitas world-foundation-model, generasi yang sadar fisika, dan harga yang sangat sederhana — semuanya dari sebuah prompt teks.

Coba Cosmos Predict 2.5 Text-to-Video di WaveSpeedAI →