← ブログ

Seedance 2.0でキャラクターの一貫性を保つ方法(リファレンスパック+ルール)

リファレンスパック、厳格な制約、および次に何を変更すべきかを教えてくれるQAチェックリストを使用して、アイデンティティのドリフトを減らしましょう。

1 min read
Seedance 2.0でキャラクターの一貫性を保つ方法(リファレンスパック+ルール)

Seedance 2.0のような映画的な動画を作りたいですか? WaveSpeed Cinematic Video Generatorを今すぐ試して、Seedance 2.0レベルの映画的な動画を作成しましょう。

アイデンティティのドリフトを修正しようと思ったわけではありません。ただ、同じキャラクターが部屋を二度横切るとき、いとこのような人物に変わってほしくなかっただけです。最初のパスはサムネイルサイズでは問題なく見えました。でもスクラブして確認すると、顎のラインが柔らかくなり、髪のカールが消え、最後の1秒には目の傾きが変わっていました。不気味なほどではないけど、何か……ずれている。**Seedance 2.0**は速くて有能ですが、キャラクターの一貫性はぐらつくことがあります。

私はDoraです。今月、いくつかの深夜に短いループを繰り返し、何が安定するかを記録しました。Seedance 2.0のキャラクター一貫性を何よりも重視したとき、実際に私の助けになったこと、そしてならなかったことをここに書きます。

IDドリフトが起きる理由(モデルが「忘れる」もの)

Seedance 2.0は同時に二つの仕事をこなしています:認識可能な顔を保つことと、生き生きとした動きを届けることです。どちらかを選ばなければならないとき、モデルはしばしば動きを選びます。そこでIDドリフトが忍び込みます。

何度繰り返しても同じパターンが見られました:

  • まず大まかなシルエットを正確に再現します(髪のボリューム、身長、全体的な体型)。
  • 次に微細な特徴がプレッシャーの下で揺れ始めます:目の間隔、人中の長さ、耳の形、生え際の角。短いクリップでは、これはトランジションや頭の回転の周辺に現れます。
  • ライティングの変化はアイデンティティへの緩やかな編集として機能します。サイドのキーライトで、私のキャラクターが微妙に別人になりました。

内部の仕組みについて(重みを見ているわけではありませんが、実用的な観点から):テキストプロンプトはカテゴリのマッチングに向かい(「若い女性、カーリーボブ、デニムジャケット」)、参照画像は特定の人物を固定します。プロンプトで過剰に説明すると、カテゴリが勝ちます。参照が弱かったり一貫性がなかったりすると、モデルは顔を「平均化」します。

また、モデルが「忘れる」場所には規則性があることに気づきました:

  • 手が顔を横切るとき、次のフレームをミニリシャッフルとして扱います。
  • 素早いヨー回転で耳やこめかみの忠実度が壊れます。
  • 繰り返しパターンのある衣装テクスチャが顔のランドマークから注目を引き離すことがあります。

つまり、ドリフトはランダムではありません。それは具体的なものから類型的なものへの緩やかな流出です。これを理解することで、入力の準備の仕方とプロンプトの書き方が変わりました。微妙なフレームの不安定さとも戦っているなら、この**Seedance 2.0のフリッカーとジッターの修正ガイド**はアイデンティティ制御と密接に関連しています。

参照パックの構築(画像+短いクリップ+スタイルアンカー)

最大の成果は、地味な行動から生まれました:小さく、規律ある参照パックを構築したのです。ByteDanceの公式アナウンスでは、Seedance 2.0が「指示の追従に優れており、豊かなキャラクターインタラクションを持つ複雑なストーリーでも、正確な再現と安定したサブジェクトの一貫性を実現します」と強調されています。Seedance 2.0により少なく、より明確なアンカーを与えたとき、キャラクターがまとまりを保ちました。

私にとって最も効果的だったのは:

  • 最大3枚の静止画、10枚ではなく。 選ぶのは:正面、四分の三角度、プロフィールの1枚ずつ。同じセッション、同じライティング。1枚は笑顔、もう1枚はニュートラルという表情のバリエーションは避けます。表情の多様性が多すぎると、モデルが中間の顔を選んでしまいます。
  • ニュートラルな頭のうなずきかゆっくりした瞬きを含む2〜3秒の参照クリップ。 無駄なフレームをトリミングし、背景をシンプルに保ちます。これにより、顎と目の動きのためのモービルベースラインがモデルに与えられました。
  • スタイルアンカー:グレードとコントラストを設定する1枚のビジュアル。 以前のエクスポートで気に入ったフレームの静止画を使いました。これを省くと、アイデンティティは保たれましたが雰囲気がずれてしまいました。使うと、両方がより近く保たれました。

効果がなかったもの:

  • コラージュ。 私には整理されているように見えますが、モデルはにぎやかなシーンとして扱うようです。
  • 混在したライティング。 暖かい室内写真と涼しい屋外写真を1枚ずつ使ったところ、モデルがニュートラルに平均化し、肌のトーンと見た目の年齢が微妙に変わりました。
  • 高解像度のヘッドショットのみ。 奇妙なことに、2枚のクリアな写真の中に1枚の中解像度のフレームを入れると助けになりました。おそらく、毛穴へのオーバーフィッティングが和らぎ、形状が保持されたからだと思います。

このパックは、シンプルな名前(front.jpg、threequarter.jpg、profile.jpg、ref.mp4、look.jpg)の1つのフォルダに保存しています。セットアップ時間が1分に短縮され、何を含めるか迷わなくなりました。多く反復しているとき、この小さな精神的摩擦の軽減は重要です。

アイデンティティを安定させるプロンプトのルール(何を固定し、何を避けるか)

凝ったプロンプトを書くのをやめました。モデルに感銘を与えようとすればするほど、モデルは私の人物を無視して美的センスを追いかけました。以下は、Seedance 2.0のキャラクター一貫性を保つのに役立った、より控えめなアプローチです。

固定するもの:

  • たとえフィクショナルであっても、人物を単一の存在として名付けます:「参照と同じキャラクター:一つの一貫したアイデンティティ。」冗長に聞こえますが、モデルが「タイプのバリアント」をサンプリングするのを防ぎました。
  • 年齢範囲、髪の特徴、そして認識に最も重要な1〜2つのハードな特徴をロックします:「20代後半、耳の長さのタイトなダークカール、左耳に小さなシルバーフープ。」詳細が少なすぎると一般化し、多すぎると選択的に採用します。
  • ショットの意図とテンポ:「フレームを横切るスローなウォーキングループ、微妙な表情、劇的な回転なし。」動きの規律はアイデンティティの規律です。

避けるもの:

  • アンカーと戦う曖昧なスタイルワード:「シネマティック」「ドリーミー」「グリッティ」。ルックが必要なら、形容詞の代わりにスタイル参照で設定します。
  • クリップの途中でシルエットを変えるコスチュームの細部管理(風になびくスカーフやルーズなジャケット)。衣装が具体的でなければならない場合は、フィットしたままで静的に保ちます。
  • 複雑なアクション。余分なビートはそれぞれ新しい顔のチャンスになります。シンプルに始めます:歩く、座る、15度回転する、瞬きする。

助けになった2つの表現のコツ:

「すべてのフレームで参照と顔の比率を同一に保つ。」命令的に聞こえますが、多くの場合に機能しました。

「新しいアクセサリーなし、メイクの変化なし、自然なゆれ以外の髪の動きなし。」これらの小さなトグルが、名前をつけることを思いつかなかった奇妙なギャップを塞ぎました。

5回の実行後、小さなことに気づきました:プロンプトを3分の1短くすると、出力がより近く保たれました。私の推測:迷子のトークンが少ないほど、モデルが雰囲気のビュッフェに向かわなくなります。

再実行前のQAチェックリスト(顔、手、ロゴ、衣装)

以前は直感で再実行していました。今は毎回同じチェックリストで60〜90秒のパスを行います。盲目的な再試行を防ぐことで時間を節約しています。

  • フレーム1、中間点、最後のフレームで静止します。front.jpgと目の距離と顎の角度を比較します。両方が「サムネイルスケールで1ピクセル幅以上」ずれた場合、再実行します。
  • 瞬きにかけてゆっくりスクラブを見ます。瞬きの途中でまぶたの端の厚みが変わったら、アイデンティティが危険な状態です。

  • 手が顔を横切る瞬間を確認します。顔が薄くなったり、鼻筋が変わって再び現れたら、「たぶん」ではなくハードな失敗と見なします。
  • 指のアーティファクトを数えます。1つのグリッチは10〜15フレーム後の2番目のアイデンティティのずれを予測することが多いです。

ロゴと小さなマーク

  • シャツの小さなロゴが反転したり柔らかくなったりしたら、顔の微細な特徴も揺れることを予想します。良い早期警告です。
  • ほくろやそばかす:移動したら、グレーディングで戦わず、代わりに入力や動きを修正します。

衣装

  • パターンのクロール(モアレ)が注目を支配することがあります。見えた場合は、トップをソリッドに変えるか、スタイルアンカーの露出を変更します。
  • ずれたネックラインは鎖骨を異なる見せ方をします:これが顔の幅の認知を微妙に変えることがあります。

各パスをおおまかにスコアリングします:0(再スタート)、1(カットアウェイに使える)、2(シーケンスをアンカーするのに十分)。2つの「2」が続いたら、調整をやめます。完璧ではなく、ストーリーを運ぶのに十分なほど安定している状態です。

ドリフトが続く場合の修正ラダー(参照を交換、制約を絞る、動きを短縮)

クリーンな入力と慎重なプロンプトの後でもアイデンティティがずれたとき、推測をやめてシンプルなラダーを登ることにしました。一度に1つのステップを試し、2〜3秒のテストを再実行します。

  1. すべてではなく、参照を交換する
  • プロフィールのみ、または四分の三角度のみを、ライティングが近いものに置き換えます。残りは保ちます。完全な入れ替えは、簡単には取り戻せない進歩を消してしまいました。
  • 表情にバリエーションがある場合は、ノーマライズします:すべての静止画でニュートラル。大きな笑顔が1枚あるだけで、クリップ全体で頬のボリュームが広がってしまったことがあります。
  1. シンプルで平易な言葉で制約を絞る
  • 実行ごとに1つの制約を追加します:「頭の回転を10°以内に」、次に「顔の上の遮蔽なし」、次に「髪を頭につけたまま:風なし」。これらを一度に積み重ねるよりも、ゆっくり積み上げた方が効果的でした。
  • モデルが抵抗する場合は、否定文に切り替えます:「劇的な回転を避ける:髪の浮き上がりを避ける:アクセサリーの変化を避ける」。否定文はより厳密に尊重されるようでした。
  1. 動きを短縮してから再構築する
  • アクションウィンドウを1.5〜2秒に短縮し、ビートを削除します:歩くだけ、見るだけ。顔が保たれたら、1つのビートを戻します。
  • ループでは、完璧な周期的オーバーラップを避けます:継ぎ目で顔の「リセット」が起きやすくなります。
  1. 視覚的エントロピーを減らす
  • 背景をシンプルにし、スタイルアンカーのコントラストを少し下げます。シーンが穏やかになると、Seedance 2.0が顔により多くの「注目」を使うようになりました。
  • ショット間でトーンがずれ続ける場合は、アンカーで肌を少し彩度を下げます。突然の暖色/寒色のシフトを防ぐようでした。
  1. 最後の手段:シルエットに従う
  • ユニークな顎のラインが保てない場合は、髪の形、耳のアクセサリー、衣装のフィットに頼ります。視聴者は私たちが認めるよりも、距離からアイデンティティを読み取ります。これはごまかしではありません:編集です。

8回の短いテストを通じて、このラダーで再試行回数が約3分の1減りました。さらに重要なのは、精神的なノイズが減ったことです。各レンダリングで賭けをしているような感覚がなくなりました。

これが役立つ人:派手なカメラムーブよりもSeedance 2.0のキャラクター一貫性を重視するなら、このより遅く、着実なアプローチが自然に感じられるでしょう。大きなアーク、ホイップ、または表情豊かなモノローグを一度に望むなら、すぐにガードレールにぶつかります。それでも到達できますが、レイヤーで構築していきましょう。


Seedance 2.0のような映画的な動画を作りたいですか? WaveSpeed Cinematic Video Generatorを今すぐ試して、Seedance 2.0レベルの映画的な動画を作成しましょう。