#open-source

14 articles

HiDream-O1-Image-Dev：以80億參數擊敗560億FLUX.2的原生像素模型

HiDream-O1-Image-Dev是一個80億參數的蒸餾圖像模型，捨棄了VAE與外部文字編碼器，原生生成2K解析度，並在GenEval、DPG和HPSv3基準上超越了7倍體積的模型。

Google Gemma 4是DeepMind迄今最強大的開源模型系列，以Apache 2.0授權提供四種規格，支援多模態輸入、原生推理，並可部署至樹莓派等端側設備。

daVinci-MagiHuman 是一個 150 億參數的開源模型，能在單張 H100 上以 2 秒生成口型同步的說話人頭影片。勝率優於 Ovi 1.1（勝率 80%）與 LTX 2.3（勝率 60.9%），採用 Apache 2.0 授權，支援多語言，速度極快。

daVinci MagiHuman Image-to-Video 是一個 150 億參數的開源模型，可將參考圖片動畫化為電影級影片，並支援可選的音頻同步。效果媲美 WAN 2.5。解析度最高 1080p，時長 5-10 秒。REST API，$0.04/秒，無冷啟動。

daVinci MagiHuman Text-to-Video 可從文字提示生成電影感十足的人物中心影片，支援可選音訊同步。150億參數開源模型，最高 1080p 畫質，影片長度 5-10 秒。提供 REST API，每秒 $0.04，無冷啟動延遲。

Helios 能在單張 H100 上以 19.5 FPS 生成長達一分鐘的影片——不使用 KV 快取、稀疏注意力機制或任何常見的加速技巧。以下是它與眾不同之處。

BitDance 14B 使用二進位標記生成圖像，速度比其他自迴歸模型快30倍，並在基準測試中超越 FLUX.1。立即在WaveSpeedAI上體驗。

Kimi K2.5 是月之暗面的開源 1T 參數模型，具備智能體群集技術、256K 上下文和多模態功能。以下是完整解析。

探索 OpenClaw，一款創新的開源個人AI助手，在您自己的設備上運行，與多個消息平台集成，同時完全由您掌控。

比較OpenMOSS MOVA、WAN 2.2 Spicy、WAN 2.6 Flash、Sora 2和Seedance 1.5 Pro的影片生成與音訊功能。特性、定價和建議。

DeepSeek V4 將於 2026 年 2 月推出，具有革命性的編碼能力。以下是我們對其架構、功能和基準的了解。

Apple的SHARP AI模型使用高斯斑點技術，在一秒內將單張2D照片轉換成逼真的3D場景。了解這項開源突破的運作原理。