Muse Spark vs Llama 4: Metaの戦略的転換

Metaが新しいモデルシリーズを発表した。 この1年間でLlama 4を使って何かを構築してきたなら、そのまま続けるべきか、移行を計画すべきか悩んでいるだろう。

私はDoraだ。昨日はMetaが公開したすべてのドキュメントを読み込み、サードパーティのベンチマークと照合し、Llamaをスタックに持つ開発者にとってこれが実際に何を意味するのかを把握しようとした。本稿では、何が変わり、何が変わらず、ビルダーたちが今どこに立っているかを解説する。

Llama 4とMuse Sparkの間で何が変わったか

アーキテクチャ：9ヶ月、ゼロから構築

Meta Superintelligence Labs — 2025年半ばにAlexandr WangがチーフAIオフィサーとして加入後に設立されたユニット — は、AIスタック全体をゼロから再構築した。新しいインフラ、新しいアーキテクチャ、新しいデータパイプライン。これはマーケティングコピーではなく、Metaの技術ブログ自身が述べていることだ。Muse Sparkはその再構築から生まれた最初のモデルだ。

Llama 4はMixture-of-Expertsアーキテクチャとオープンウェイトを採用していた。Muse Sparkはネイティブにマルチモーダルな推論モデルだ — つまり、ビジョンは後付けで組み込まれたのではなく、最初から統合されていた。ツール使用、ビジュアルチェーンオブソート、マルチエージェントオーケストレーションをサポートしている。Llama 4はこれらのいずれもネイティブ機能として持っていなかった。

このモデルは段階的な推論モードも導入している：カジュアルなクエリ向けのInstant、ステップバイステップの作業向けのThinking、そして複数のサブエージェントを並列で実行するContemplatingモード。最後のモードは、Gemini Deep ThinkとGPT Proの拡張推論に対するMetaの回答だ。

効率性：Metaの主張であり、独立した結論ではない

Metaは、Muse SparkがLlama 4 Maverickレベルの能力を10倍以上少ないコンピュートで達成すると述べている。彼らが説明するメカニズムは「思考圧縮」だ — 強化学習中に、過剰な思考時間に対してペナルティが与えられ、精度を落とさずにより少ないトークンで推論することを強制される。

ここで正確に述べておきたい：これはMetaの主張だ。独立して再現されたわけではない。Artificial Analysisのトークン効率の数値を見ると、Muse Sparkはフルのインテリジェンスインデックス実行に5800万出力トークンを使用しており、Gemini 3.1 Proの5700万と同等で、Claude Opus 4.6の1億5700万やGPT-5.4の1億2000万をはるかに下回っている。したがって、効率性の話には少なくとも出力側における独立したサポートがある。

ベンチマークのギャップ：18から52へ

Artificial Analysisによると、Llama 4 Maverickはローンチ時のインテリジェンスインデックスで18を記録した。Muse Sparkは52を記録した。これにより、総合4位となった — Gemini 3.1 Pro PreviewとGPT-5.4（どちらも57）、Claude Opus 4.6（53）に次ぐ位置だ。

重要な注意点が一つある：Artificial AnalysisはMetaから早期アクセスを受けてモデルをベンチマークした。彼らは独自に評価を実施したが、アクセス自体はMetaを通じて提供された。これらはまだ完全に独立した公開ベンチマークではない。スコアは方向性として有用だが、金科玉条ではない。

Muse Sparkがリードしている分野：健康ベンチマーク（HealthBench Hardで42.8、GPT-5.4の40.1を上回る）、視覚的推論（MMMU-Proで80.5%、Gemini 3.1 Proに次ぐ2位）、チャート理解。

遅れている分野：コーディング（Terminal-Bench Hard、Claude Sonnet 4.6とGPT-5.4に遅れ）、エージェント的タスク（GDPval-AA 1,427 ELO対GPT-5.4の1,676）、抽象的推論（ARC-AGI-2で42.5対トップ競合の76以上）。Metaは技術ブログでこれらのギャップを明示的に認め、「長期的なエージェントシステムとコーディングワークフローへの投資を継続する」と述べた。

オープンとクローズドのシフト

Llamaのモデル：オープンウェイト、コミュニティエコシステム

Llamaの価値提案は明快だった。ウェイトをダウンロードし、自前のハードウェアで実行し、ユースケースに合わせてファインチューニングし、コンピュートコストだけを支払う。このオープンウェイトアプローチはエコシステムを構築した — Hugging Face上の数千のファインチューニング済みバリアント、スタートアップや企業全体のセルフホストデプロイメント、コンシューマーGPU上で動く量子化モデルの一大産業。Llama 4 ScoutはH100一枚に収まる。Maverickは量子化でRTX 5090上で動作する。

そのエコシステムは今も存在している。これらのモデルは削除されていない。

Muse Sparkのモデル：クローズド、APIはプライベートプレビューのみ

Muse Sparkはプロプライエタリだ。ダウンロード可能なウェイトはない。 セルフホスティングも不可。現在はMeta AIがMetaのアプリ全体で動かしている — Meta AIウェブサイト、そして近くWhatsApp、Instagram、Facebook、Messenger、Ray-Ban AIグラスでも。外部の開発者はプライベートAPIプレビューへの申請ができる。それだけだ。

これはOpenAIやAnthropicのモデルよりも制限が厳しく、少なくともそれらは公開APIアクセスを提供している。Fortuneの報道が指摘したように、Muse Sparkは「Metaのライバルが提供する有料プロプライエタリモデルよりもさらにプロプライエタリ」だ。

「将来バージョンをオープンソース化することを望んでいる」

Metaのブログポストにはこのフレーズがある。ZuckerbergはThreadsで「フロンティアを押し広げる知性と能力を持つ、ますます高度なモデルを、新しいオープンソースモデルも含めてリリースする計画」について書いた。WangはXで将来バージョンのオープンソース化に言及した。

タイムラインはない。どのモデルをいつという具体的なコミットメントもない。「将来バージョン」がMuse Spark自体がいつかオープン化されることを意味するのか、それとも別のオープンウェイトブランチが並行して継続するのかの指示もない。

これを、「オープンソースAIは前進への道だ」というタイトルでZuckerbergが書いた2024年のマニフェストと比較してほしい。彼はそこでLlamaを公開することがMetaの収益を損なわないと主張した。それは18ヶ月前の話だ。戦略的な計算は明らかに変化している。The Next Webの分析が指摘したように、クローズ化は、Metaが今や自分たちをアーキテクチャの革新を手放すコストが得るものを上回るレースの中にいると見なしているシグナルだ。

ここで私のデータは終わる。将来のMuseモデルが実際にオープン化されるかどうかは推測だ。具体的なものが出れば更新する。

現在Llamaを使っているビルダーへの影響

セルフホストLlama：まだ有効、非推奨ではない

VentureBeatがMetaに直接Llama開発が終了したかどうかを尋ねたところ、広報担当者はこう答えた：「現行のLlamaモデルは引き続きオープンソースとして利用可能だ。」この文章は慎重に言葉を選んでいる。既存モデルが引き続き利用可能であることを確認している。将来のLlama開発については何も言っていない。

現在本番環境でLlama 4 ScoutかMaverickを動かしているなら、運用上は何も変わっていない。ウェイトはHugging Face上にある。コミュニティのファインチューニングはまだ機能する。インフラを移す必要はない。

運用上のトレードオフ：今日対待機

実際的な状況はこうだ。動作するLlamaデプロイメント — 推論パイプラインが調整済み、コストが予測可能、チームがパラメータに慣れている — があるなら、既知の量を持っていることになる。Muse Spark APIの価格はまだ発表されていない。公開APIアクセスも発表されていない。プライベートプレビューは招待制だ。

セルフホストのオープンウェイトモデルからクローズドAPIに切り替えることは、レイテンシ、稼働時間、コスト構造、データ処理に対するコントロールを手放すことを意味する。そのトレードオフが理にかなうチームもある。そうでないチームもある。重要なのは、Muse SparkのAPI条件が公開されていないため、そもそもトレードオフを評価すらできないということだ。

コーディングワークフロー：認められたギャップ

Llamaデプロイメントがコード生成、コードレビュー、または開発者向けのタスクを処理しているなら、今すぐMuse Sparkを見る理由はない。Meta自身がそう言っている — コーディングは現在の弱点だ。Terminal-Bench Hardでは、Muse SparkはClaude Sonnet 4.6とGPT-5.4の両方に遅れをとっている。実世界の作業タスクを測定するGDPval-AAでは、Claude Sonnet 4.6の1,648に対して1,427 ELOを記録している。

私の使用頻度には合っている。あなたのは異なるかもしれない。しかしこの点ではデータが明確だ。

MetaがこのMove를行った理由

Llama 4：認められたつまずき

Llama 4は2025年4月に発売され、まちまちな評価を受けた。ベンチマーク論争 — MetaがLMArenaでスコアを上げるために特別な未公開の「実験的チャットバージョン」を使用した — は信頼性を損なった。モデル自体はそのウェイトクラスでは堅実だったが、フロンティアを動かすことはなかった。2025年半ばまでに、MetaはOpenAI、Anthropic、Googleに遅れをとったというナラティブが定着していた。

Wangのマンデート

2025年6月、MetaはScale AIの49%の議決権なし株式取得に143億ドルを費やし、共同創業者のAlexandr WangをチーフAIオフィサーとして迎えた。マンデートは明確だった：追いつけ。Meta Superintelligence Labsが設立された。研究者たちはOpenAI、Anthropic、Googleから採用され、株式を含めると報酬パッケージは数億ドルに達したと報告されている。

9ヶ月後、Muse Sparkが最初の成果だ。その投資を正当化するかどうかは、次に何が来るかにかかっている — このモデルは意図的に小型で高速であり、より大型のバージョンはすでに開発中だ。

競争圧力

計算は単純だ。OpenAIとAnthropicは合わせて1兆ドルを超える評価を受けている。GoogleのGeminiはコンシューマーと開発者市場の両方でトラクションを得ている。Metaは2025年にAIインフラに720億ドルを費やし、2026年には1,150億〜1,350億ドルへの増加がガイドされていたが、フロンティア競争力のあるモデルを示せていなかった。何かが変わる必要があった。

ビルダーのための意思決定フレームワーク

Llamaを維持すべき場合：

オープンウェイトが必要な場合 — セルフホスティング、ファインチューニング、オンプレミスコンプライアンス、またはコスト管理のため。Muse Sparkに認められたギャップがあるコーディング重視のワークフローを実行している場合。プライベートAPIウェイトリストに依存しない、予測可能でセルフマネージドなインフラが必要な場合。すでにLlama固有のツール（量子化パイプライン、LoRAアダプター、カスタム評価）に投資している場合。

Muse Sparkを注目すべき場合：

Metaの製品エコシステム内で構築している場合 — Instagram、WhatsApp、Facebook、またはMessengerと統合するものすべて。特に視覚的推論や健康関連タスクで強力なマルチモーダル理解が必要な場合。公開APIアクセスを待てる場合で、価格と条件が利用可能になった時点で評価できる場合。

どちらもカバーしないもの：

画像生成。動画生成。これらは別のモデルカテゴリだ。Muse Sparkはテキスト出力のみで、Llama 4もテキスト出力のみだ。生成機能が必要な場合は、まったく別のツールを見ることになる。

FAQ

Muse Sparkのローンチ後もLlama 4を使い続けられるか？

はい。Llama 4 ScoutとMaverickはHugging FaceおよびMetaのAPIパートナーを通じて引き続き利用可能だ。非推奨になったり削除されたりしたものは何もない。

MetaはMuse Sparkのウェイトをリリースするか？

Metaは「モデルの将来バージョンをオープンソース化することを望んでいる」と述べた。タイムラインはなく、Muse Spark自体についての具体的なコミットメントもなく、「将来バージョン」が実際に何を意味するかの指示もない。これは計画ではなく、願望として扱ってほしい。

Muse SparkはコーディングでLlama 4より優れているか？

いいえ。Metaはコーディングを現在のギャップとして明示的に認めている。コーディング固有のベンチマークでは、Muse SparkはClaude Sonnet 4.6とGPT-5.4に遅れをとっている。コーディングが主なユースケースなら、Llama 4 Maverickにファインチューニングを施したか、専用のコーディングモデルが今日のより良い選択だ。

次のMuseモデルはいつ来るか？

Metaは、Muse Sparkを「最初のステップ」であり「より大型のモデルはすでに開発中」と説明した。日程なし。名称なし。存在することの確認以外のスペックなし。

これは広範なオープンソースAIエコシステムに影響するか？

これはシグナルであり、致命打ではない。MetaのオープンウェイトLlamaモデルは引き続き利用可能だ。他の組織 — Mistral、DeepSeek、AlibabaのQwen — はオープンモデルのリリースを続けている。しかしMetaはオープンウェイトのフロンティアモデルの単一最大企業スポンサーだった。彼らのフロンティア投資がクローズドモデルへと永続的にシフトすれば、エコシステムは最も資金力のある貢献者を失う。それは何週間ではなく、何年もかけて重要になってくる話だ。

以上だ。APIが公開されたら続報をお届けする。

以前の記事：