#open-source
14 articles
HiDream-O1-Image-Dev:击败56B FLUX.2的8B像素原生模型
HiDream-O1-Image-Dev是一款80亿参数的蒸馏图像模型,去除了VAE和外部文本编码器,原生生成2K分辨率图像,在GenEval、DPG和HPSv3评测中超越了7倍体量的模型。
Google Gemma 4是什么?架构、基准测试及其重要性
Google Gemma 4是DeepMind迄今为止最强大的开源模型系列,提供四种规模版本,基于Apache 2.0协议,支持多模态输入、原生推理能力,并可在树莓派等设备上本地部署。
daVinci-MagiHuman:碾压所有数字人生成器的开源模型
daVinci-MagiHuman 是一个 150 亿参数的开源模型,能在单张 H100 上 2 秒内生成唇形同步的说话头像视频。胜过 Ovi 1.1(80% 胜率)和 LTX 2.3(60.9%),采用 Apache 2.0 许可,支持多语言,速度极快。
daVinci MagiHuman图像转视频现已登陆WaveSpeedAI
daVinci MagiHuman图像转视频是一款150亿参数的开源模型,可将参考图像动画化为电影级视频,并支持可选音频同步。性能媲美WAN 2.5。最高支持1080p分辨率,时长5至10秒。提供REST API,价格为$0.04/秒,无冷启动。
daVinci MagiHuman Text-to-Video现已登陆WaveSpeedAI
daVinci MagiHuman Text-to-Video可从文本提示生成以人物为核心的电影级视频,支持可选音频同步。150亿参数开源模型,分辨率最高1080p,时长5至10秒。提供REST API,定价$0.04/秒,无冷启动。
Helios:一个跳过所有捷径的实时长视频生成模型
Helios 可在单块 H100 上以 19.5 FPS 生成长达一分钟的视频——无需 KV 缓存、稀疏注意力或任何常见的加速技巧。本文带你了解它的独特之处。
BitDance 14B:比其他自回归模型快30倍的AI图像生成
BitDance 14B 使用二值化令牌,图像生成速度比其他自回归模型快30倍,在基准测试中超越 FLUX.1。立即在 WaveSpeedAI 上体验。
Kimi K2.5现已登陆WaveSpeedAI:Moonshot视觉智能体模型完全解析
Kimi K2.5是Moonshot AI推出的开源1T参数模型,具备Agent Swarm技术、256K上下文和多模态能力。本文提供完整解析。
OpenClaw:你可以完全控制的开源个人AI助手
发现OpenClaw,一款创新的开源个人AI助手,可在你自己的设备上运行,并与多个消息平台集成,同时让你保持完全控制。
MOVA vs WAN vs Sora 2 vs Seedance:2026年视频音频AI模型对比
对比OpenMOSS MOVA、WAN 2.2 Spicy、WAN 2.6 Flash、Sora 2和Seedance 1.5 Pro的视频生成与音频功能。包括特性、定价和推荐。
DeepSeek V4:关于即将推出的编码AI模型的所有信息
DeepSeek V4 将在2026年2月推出,具有革命性的编码能力。以下是我们对其架构、功能和基准的了解。
Apple SHARP: 一秒内将任何照片转换为3D
Apple的SHARP AI模型使用高斯溅射技术,在一秒内将单张2D照片转换为逼真的3D场景。了解这项开源突破的工作原理。