#open-source
14 articles
HiDream-O1-Image-Dev:以80億參數擊敗560億FLUX.2的原生像素模型
HiDream-O1-Image-Dev是一個80億參數的蒸餾圖像模型,捨棄了VAE與外部文字編碼器,原生生成2K解析度,並在GenEval、DPG和HPSv3基準上超越了7倍體積的模型。
什麼是Google Gemma 4?架構、基準測試及其重要性
Google Gemma 4是DeepMind迄今最強大的開源模型系列,以Apache 2.0授權提供四種規格,支援多模態輸入、原生推理,並可部署至樹莓派等端側設備。
daVinci-MagiHuman:碾壓所有數位人生成器的開源模型
daVinci-MagiHuman 是一個 150 億參數的開源模型,能在單張 H100 上以 2 秒生成口型同步的說話人頭影片。勝率優於 Ovi 1.1(勝率 80%)與 LTX 2.3(勝率 60.9%),採用 Apache 2.0 授權,支援多語言,速度極快。
daVinci MagiHuman Text-to-Video 現已登陸WaveSpeedAI
daVinci MagiHuman Text-to-Video 可從文字提示生成電影感十足的人物中心影片,支援可選音訊同步。150億參數開源模型,最高 1080p 畫質,影片長度 5-10 秒。提供 REST API,每秒 $0.04,無冷啟動延遲。
daVinci MagiHuman Image-to-Video 現已登陸WaveSpeedAI
daVinci MagiHuman Image-to-Video 是一個 150 億參數的開源模型,可將參考圖片動畫化為電影級影片,並支援可選的音頻同步。效果媲美 WAN 2.5。解析度最高 1080p,時長 5-10 秒。REST API,$0.04/秒,無冷啟動。
Helios:一個不走捷徑的即時長影片生成模型
Helios 能在單張 H100 上以 19.5 FPS 生成長達一分鐘的影片——不使用 KV 快取、稀疏注意力機制或任何常見的加速技巧。以下是它與眾不同之處。
BitDance 14B:比其他自迴歸模型快30倍的AI圖像生成
BitDance 14B 使用二進位標記生成圖像,速度比其他自迴歸模型快30倍,並在基準測試中超越 FLUX.1。立即在WaveSpeedAI上體驗。
Kimi K2.5:關於月之暗面視覺智能體模型的一切
Kimi K2.5 是月之暗面的開源 1T 參數模型,具備智能體群集技術、256K 上下文和多模態功能。以下是完整解析。
OpenClaw:您可以控制的開源個人AI助手
探索 OpenClaw,一款創新的開源個人AI助手,在您自己的設備上運行,與多個消息平台集成,同時完全由您掌控。
MOVA vs WAN vs Sora 2 vs Seedance:2026年影片音訊AI模型比較
比較OpenMOSS MOVA、WAN 2.2 Spicy、WAN 2.6 Flash、Sora 2和Seedance 1.5 Pro的影片生成與音訊功能。特性、定價和建議。
DeepSeek V4 現已登陸WaveSpeedAI:關於這款即將推出的編碼 AI 模型的一切
DeepSeek V4 將於 2026 年 2 月推出,具有革命性的編碼能力。以下是我們對其架構、功能和基準的了解。
Apple SHARP: 一秒內將任何照片轉換成3D
Apple的SHARP AI模型使用高斯斑點技術,在一秒內將單張2D照片轉換成逼真的3D場景。了解這項開源突破的運作原理。