#open-source
14 articles
HiDream-O1-Image-Dev:56BのFLUX.2を超えた8Bピクセルネイティブモデル
HiDream-O1-Image-DevはVAEと外部テキストエンコーダーを排除した8Bの蒸留画像モデルで、ネイティブで2K解像度を生成し、GenEval・DPG・HPSv3において自身の7倍のサイズのモデルを凌駕します。
Google Gemma 4とは?アーキテクチャ、ベンチマーク、そしてその重要性
Google Gemma 4は、DeepMindがこれまでに発表した中で最も高性能なオープンモデルファミリーです。Apache 2.0ライセンスのもと4つのサイズで提供され、マルチモーダル入力、ネイティブ推論、Raspberry Piへのオンデバイスデプロイをサポートしています。
daVinci-MagiHuman:あらゆるデジタルヒューマン生成モデルを圧倒したオープンソースモデル
daVinci-MagiHumanは150億パラメータのオープンソースモデルで、単一のH100で2秒以内にリップシンク付きトーキングヘッド動画を生成します。Ovi 1.1(勝率80%)およびLTX 2.3(勝率60.9%)を凌駕。Apache 2.0ライセンス、多言語対応、超高速処理を実現。
daVinci MagiHuman Image-to-VideoがWaveSpeedAIに登場
daVinci MagiHuman Image-to-Videoは150億パラメータのオープンソースモデルで、参照画像を映画品質の動画にアニメーション化し、オプションで音声同期にも対応しています。WAN 2.5と同等の性能を発揮。最大1080p、5〜10秒の動画を生成可能。REST API対応、$0.04/秒、コールドスタートなし。
daVinci MagiHuman Text-to-VideoがWaveSpeedAIに登場
daVinci MagiHuman Text-to-Videoは、テキストプロンプトからシネマティックな人物中心の動画を生成し、オプションの音声同期にも対応。150億パラメータのオープンソースモデルで、最大1080p・5〜10秒の動画を出力。REST API対応、$0.04/秒、コールドスタートなし。
Helios:あらゆるショートカットを排除したリアルタイム長尺動画生成モデル
Heliosは、KVキャッシュ、スパースアテンション、その他一般的な高速化手法を一切使わず、単一のH100で19.5 FPSの数分間の動画を生成します。その違いを解説します。
BitDance 14B:自己回帰型AI画像生成が30倍高速化
BitDance 14Bはバイナリトークンを使用し、他の自己回帰モデルより30倍高速に画像を生成します。ベンチマークではFLUX.1を上回る性能を発揮。WaveSpeedAIで今すぐお試しください。
Kimi K2.5:Moonshot の視覚的エージェントモデルについて知っておくべきすべてのこと
Kimi K2.5は、Moonshot AIのオープンソース1Tパラメータモデルで、Agent Swarmテクノロジー、256Kコンテキスト、マルチモーダル機能を備えています。ここでは完全な分析を提供します。
OpenClaw: あなたが管理するオープンソースの個人用AIアシスタント
複数のメッセージングプラットフォームと統合し、あなたのデバイス上で実行される革新的なオープンソースの個人用AIアシスタント、OpenClawを発見してください。
MOVA vs WAN vs Sora 2 vs Seedance: 2026年のビデオ・オーディオAIモデル比較
OpenMOSS MOVA、WAN 2.2 Spicy、WAN 2.6 Flash、Sora 2、Seedance 1.5 Proのビデオ生成機能とオーディオ対応を比較。機能、料金、推奨事項を掲載。
DeepSeek V4: 次世代コーディングAIモデルについて知っておくべきすべてのこと
DeepSeek V4は2026年2月にリリース予定で、革命的なコーディング機能を備えています。アーキテクチャ、機能、ベンチマークについて知っていることをすべてご紹介します。
Apple SHARP: 任意の写真を1秒以下で3Dに変換
Appleの SHARP AIモデルは、ガウシアンスプラッティングを使用して、単一の2D写真をわずか1秒以下で写真のようにリアルな3Dシーンに変換します。このオープンソースのブレークスルーがどのように機能するかを学びます。