#digital-human
39 articles
daVinci-MagiHuman:あらゆるデジタルヒューマン生成モデルを圧倒したオープンソースモデル
daVinci-MagiHumanは150億パラメータのオープンソースモデルで、単一のH100で2秒以内にリップシンク付きトーキングヘッド動画を生成します。Ovi 1.1(勝率80%)およびLTX 2.3(勝率60.9%)を凌駕。Apache 2.0ライセンス、多言語対応、超高速処理を実現。
daVinci MagiHuman Image-to-VideoがWaveSpeedAIに登場
daVinci MagiHuman Image-to-Videoは150億パラメータのオープンソースモデルで、参照画像を映画品質の動画にアニメーション化し、オプションで音声同期にも対応しています。WAN 2.5と同等の性能を発揮。最大1080p、5〜10秒の動画を生成可能。REST API対応、$0.04/秒、コールドスタートなし。
daVinci MagiHuman Text-to-VideoがWaveSpeedAIに登場
daVinci MagiHuman Text-to-Videoは、テキストプロンプトからシネマティックな人物中心の動画を生成し、オプションの音声同期にも対応。150億パラメータのオープンソースモデルで、最大1080p・5〜10秒の動画を出力。REST API対応、$0.04/秒、コールドスタートなし。
InfiniteTalk Fast Video-to-Video MultiがWaveSpeedAIに登場
InfiniteTalk Fastのマルチキャラクター口パク同期は、動画と2つの音声トラックをリアルなトーキング・歌唱動画に変換します。標準より50%低コストで、最大10分まで対応。すぐに使えるREST推論API、高パフォーマンス、コールドスタートなし、リーズナブルな価格設定。
InfiniteTalk Video-to-Video MultiがWaveSpeedAIに登場
InfiniteTalk Video-to-Video Multiは、動画と2つの音声入力からリアルなマルチキャラクターのリップシンク動画を生成します。480p/720pに対応し、最大10分、全身の一貫性を維持。すぐに使えるREST推論API、最高のパフォーマンス、コールドスタートなし、リーズナブルな価格設定。
SkyReels V3 Talking Avatar:1枚の写真からAIトーキングヘッド動画を生成
SkyReels V3 Talking Avatarは、1枚のポートレート写真と音声からリアルなトーキングヘッド動画を生成します。40以上の言語のリップシンクに対応。WaveSpeedAIでお試しください。
SoulX FlashHead:96 FPSのリアルタイムAIトーキングヘッドがWaveSpeedAIに登場
SoulX FlashHeadは、アイデンティティのずれなしに96 FPSでリアルタイムストリーミングのトーキングヘッド動画を生成します。無限長の動画に対応。WaveSpeedAIでお試しください。
LongCat AvatarがWaveSpeedAIに登場
LongCat Avatarは、超リアルなリップシンク機能を備えた長尺ビデオ生成を実現し、自然な動きと一貫性のあるアイデンティティを保ちます。1枚の写真とオーディオから、オーディオ駆動のトーキングまたはシンギングアバタービデオ(画像からビデオへ)を生成でき、最大1分、720p層は$0.30/5秒です。すぐに使えるREST API、コールドスタートなし
WaveSpeedAI InfiniteTalkがWaveSpeedAIに登場
InfiniteTalkは1枚の写真と音声を音声駆動のトーキングまたはシンギングアバタービデオに変換します(Image-to-Video)。最大10分、720p品質で$0.30/5秒。すぐに使用できるREST API、コールドスタートなし、手頃な価格設定。
WaveSpeedAI Live AvatarがWaveSpeedAIに登場
Live Avatarは参照画像とオーディオから話す顔動画を生成し、自然な表情でリアルなリップシンクアニメーションを作成します。
Kuaishou Kling V1 AI Avatar StandardがWaveSpeedAIに登場
Kling AI Avatarはデジタルアイデンティティとコンテンツ作成のための素晴らしいAI生成ビデオアバターを製作し、オンデマンドビデオは5秒あたり$0.25で課金されます。すぐに使えるREST API、コールドスタートなし、手頃な価格。
WaveSpeedAI InfiniteTalk MultiがWaveSpeedAIに登場
InfiniteTalk Multiは、1つの画像と2つのオーディオ入力を最大720pのマルチキャラクター会話またはシングビデオに変換します。すぐに使えるREST推論API、最高のパフォーマンス、コールドスタートなし、手頃な価格。