#open-source

14 articles

HiDream-O1-Image-Dev：击败56B FLUX.2的8B像素原生模型

HiDream-O1-Image-Dev是一款80亿参数的蒸馏图像模型，去除了VAE和外部文本编码器，原生生成2K分辨率图像，在GenEval、DPG和HPSv3评测中超越了7倍体量的模型。

Google Gemma 4是DeepMind迄今为止最强大的开源模型系列，提供四种规模版本，基于Apache 2.0协议，支持多模态输入、原生推理能力，并可在树莓派等设备上本地部署。

daVinci-MagiHuman 是一个 150 亿参数的开源模型，能在单张 H100 上 2 秒内生成唇形同步的说话头像视频。胜过 Ovi 1.1（80% 胜率）和 LTX 2.3（60.9%），采用 Apache 2.0 许可，支持多语言，速度极快。

daVinci MagiHuman图像转视频是一款150亿参数的开源模型，可将参考图像动画化为电影级视频，并支持可选音频同步。性能媲美WAN 2.5。最高支持1080p分辨率，时长5至10秒。提供REST API，价格为$0.04/秒，无冷启动。

daVinci MagiHuman Text-to-Video可从文本提示生成以人物为核心的电影级视频，支持可选音频同步。150亿参数开源模型，分辨率最高1080p，时长5至10秒。提供REST API，定价$0.04/秒，无冷启动。

Helios 可在单块 H100 上以 19.5 FPS 生成长达一分钟的视频——无需 KV 缓存、稀疏注意力或任何常见的加速技巧。本文带你了解它的独特之处。

BitDance 14B 使用二值化令牌，图像生成速度比其他自回归模型快30倍，在基准测试中超越 FLUX.1。立即在 WaveSpeedAI 上体验。

Kimi K2.5是Moonshot AI推出的开源1T参数模型，具备Agent Swarm技术、256K上下文和多模态能力。本文提供完整解析。

发现OpenClaw，一款创新的开源个人AI助手，可在你自己的设备上运行，并与多个消息平台集成，同时让你保持完全控制。

对比OpenMOSS MOVA、WAN 2.2 Spicy、WAN 2.6 Flash、Sora 2和Seedance 1.5 Pro的视频生成与音频功能。包括特性、定价和推荐。

DeepSeek V4 将在2026年2月推出，具有革命性的编码能力。以下是我们对其架构、功能和基准的了解。

Apple的SHARP AI模型使用高斯溅射技术，在一秒内将单张2D照片转换为逼真的3D场景。了解这项开源突破的工作原理。