WaveSpeed 部落格

LTX-2.3 是一款基於 DiT 架構的音視頻基礎模型，旨在單一模型中生成同步的影片與音訊，並具備更優質的音訊與視覺品質。

LTX-2.3 Lipsync 能根據音頻生成帶有同步唇型動作與自然臉部表情的說話人物影片。採用基於 DiT 的架構構建

支援LoRA的LTX-2.3是一款基於DiT架構的音視頻基礎模型，專為生成具有自訂風格、動作或人物外觀的同步音視頻內容而設計。

LTX Video 2.0 透過在影片開頭或結尾生成新內容來延伸現有影片。支援提示詞引導延伸，最長可達 20 秒。即用型 REST 推論介面。

GPT-5.4 曾短暫出現在 OpenAI Codex 儲存庫中，隨後被移除。以下是此次洩露訊號對開發者可能意味著什麼。

Helios 能在單張 H100 上以 19.5 FPS 生成長達一分鐘的影片——不使用 KV 快取、稀疏注意力機制或任何常見的加速技巧。以下是它與眾不同之處。

從每日研究摘要到自動化 Slack 報告——探索 7 個您今天就能設置的實用 MaxClaw 使用案例，無需編寫程式碼。

Gemini 3.1 Flash-Lite 是 Google 成本最低的推理模型。本文介紹其功能、實際應用場景，以及與 Gemini Flash 的直接比較。

以簡明易懂的方式解析 MaxClaw 各定價方案的內容、每個方案包含哪些功能，以及與自建方案相比的成本差異——讓您能夠自信地做出決策。

SkyReels 從無限長度影片（V2）進化到音視頻聯合生成（V4）。以下是具體的變化、改進之處，以及各版本目前最適合的應用場景。

Depth Anything Video 能從視頻輸入中估算深度圖，並保持時間一致性。支援多種模型尺寸與色彩映射方案，提供即用型 REST 推理 API。

Qwen Image 2.0 Edit 是一款先進的圖像編輯模型，具備更高品質與更強的指令理解能力。即用型 REST 推理 API，性能卓越。