Muse Spark vs Llama 4: Meta의 전략적 전환

Meta가 새로운 모델 시리즈를 출시했습니다. 지난 1년간 Llama 4를 기반으로 무언가를 만들었다면, 계속 진행할지 아니면 마이그레이션을 계획할지 고민하고 있을 겁니다.

저는 Dora입니다. 어제 하루 종일 Meta가 공개한 모든 문서를 읽고, 서드파티 벤치마크와 교차 검토하며, 이것이 Llama를 스택에 포함한 사람들에게 실제로 무엇을 의미하는지 파악하려 했습니다. 이 글은 무엇이 변했고, 무엇이 변하지 않았으며, 빌더들이 현재 어떤 상황에 있는지를 정리합니다.

Llama 4와 Muse Spark 사이에서 변한 것들

아키텍처: 9개월, 처음부터 다시

Meta Superintelligence Labs — 2025년 중반 Alexandr Wang이 최고 AI 책임자로 합류하면서 구성된 부서 — 는 전체 AI 스택을 처음부터 다시 구축했습니다. 새로운 인프라, 새로운 아키텍처, 새로운 데이터 파이프라인. 이건 마케팅 문구가 아닙니다. Meta 자체 기술 블로그에 명시된 내용입니다. Muse Spark는 이 재구축에서 나온 첫 번째 모델입니다.

Llama 4는 오픈 가중치를 가진 Mixture-of-Experts 아키텍처를 사용했습니다. Muse Spark는 네이티브 멀티모달 추론 모델입니다. 즉, 비전이 나중에 덧붙여진 게 아니라 처음부터 통합되었습니다. 도구 사용, 시각적 사고 연쇄, 멀티 에이전트 오케스트레이션을 지원합니다. Llama 4에는 이런 것들이 네이티브 기능으로 없었습니다.

이 모델은 또한 계층적 추론 모드를 도입합니다. 일반 쿼리를 위한 Instant, 단계별 작업을 위한 Thinking, 그리고 여러 서브 에이전트를 병렬로 실행하는 Contemplating 모드. 마지막 모드는 Gemini Deep Think와 GPT Pro의 확장 추론에 대한 Meta의 답변입니다.

효율성: Meta의 주장, 독립적 결론은 아닌

Meta는 Muse Spark가 10배 이상 적은 컴퓨팅으로 Llama 4 Maverick 수준의 성능에 도달한다고 말합니다. 그들이 설명하는 메커니즘은 “사고 압축”입니다. 강화 학습 과정에서 모델이 과도한 사고 시간에 대해 페널티를 받아, 정확도를 잃지 않고 더 적은 토큰으로 추론하도록 강제됩니다.

여기서 정확하게 말씀드리고 싶습니다. 이것은 Meta의 주장입니다. 독립적으로 재현된 바 없습니다. Artificial Analysis의 토큰 효율성 수치를 보면 Muse Spark가 전체 Intelligence Index를 실행하는 데 5,800만 개의 출력 토큰을 사용했습니다. Gemini 3.1 Pro의 5,700만 개와 비슷하고, Claude Opus 4.6의 1억 5,700만 개나 GPT-5.4의 1억 2,000만 개보다 훨씬 낮습니다. 따라서 효율성 이야기는 적어도 출력 측면에서는 어느 정도 독립적인 뒷받침이 있습니다.

벤치마크 격차: 18에서 52로

Artificial Analysis에 따르면, Llama 4 Maverick은 출시 당시 Intelligence Index에서 18점을 받았습니다. Muse Spark는 52점을 받았습니다. 이는 전체 4위에 해당합니다. Gemini 3.1 Pro Preview와 GPT-5.4(둘 다 57점), Claude Opus 4.6(53점) 뒤입니다.

중요한 주의 사항: Artificial Analysis는 Meta로부터 모델을 벤치마크하기 위한 초기 접근 권한을 받았습니다. 자체 평가를 독립적으로 실행했지만, 접근 자체는 Meta를 통해 이루어졌습니다. 아직 완전히 독립적인 공개 벤치마크가 아닙니다. 점수는 방향성 있는 참고 자료이지 절대적 기준이 아닙니다.

Muse Spark가 앞서는 분야: 헬스 벤치마크(HealthBench Hard에서 42.8점, GPT-5.4의 40.1점 앞섬), 시각적 추론(MMMU-Pro에서 80.5%, Gemini 3.1 Pro에 이어 2위), 차트 이해.

뒤처지는 분야: 코딩(Terminal-Bench Hard, Claude Sonnet 4.6과 GPT-5.4에 뒤처짐), 에이전트 작업(GDPval-AA 1,427 ELO 대 GPT-5.4의 1,676), 추상적 추론(ARC-AGI-2에서 42.5점 대 상위 경쟁자들의 76점 이상). Meta는 자체 기술 블로그에서 이러한 격차를 명시적으로 인정하며, “장기 에이전틱 시스템과 코딩 워크플로우”에 계속 투자하고 있다고 밝혔습니다.

오픈과 클로즈드의 전환

Llama의 모델: 오픈 가중치, 커뮤니티 생태계

Llama의 가치 제안은 간단했습니다. 가중치를 다운로드하고, 자체 하드웨어에서 실행하고, 사용 사례에 맞게 파인튜닝하고, 컴퓨팅 비용만 지불하면 됩니다. 오픈 가중치 접근 방식은 생태계를 구축했습니다. Hugging Face에 수천 가지 파인튜닝 변형, 스타트업과 기업 전반의 셀프 호스팅 배포, 소비자용 GPU에서 실행되는 양자화 모델의 작은 산업 전체. Llama 4 Scout은 단일 H100에 맞습니다. Maverick은 양자화를 통해 RTX 5090에서 실행됩니다.

그 생태계는 여전히 존재합니다. 해당 모델들은 아직 내려지지 않았습니다.

Muse Spark의 모델: 클로즈드, API 비공개 프리뷰만

Muse Spark는 독점 소유입니다. 다운로드 가능한 가중치가 없습니다. 셀프 호스팅도 없습니다. 현재 회사의 앱 전반에 걸쳐 Meta AI를 구동합니다. Meta AI 웹사이트, 그리고 곧 WhatsApp, Instagram, Facebook, Messenger, Ray-Ban AI 안경에도 탑재됩니다. 외부 개발자는 비공개 API 프리뷰를 신청할 수 있습니다. 그게 전부입니다.

이는 최소한 공개 API 접근을 제공하는 OpenAI나 Anthropic의 모델보다 더 폐쇄적입니다. Fortune의 보도에 따르면, Muse Spark는 “Meta 경쟁사들이 제공하는 유료 독점 모델보다도 더 독점적”입니다.

“향후 버전을 오픈소스로 공개하기를 희망합니다”

Meta의 블로그 게시물에는 이 문구가 포함되어 있습니다. Zuckerberg는 Threads에 “지능과 역량의 최전선을 밀어붙이는 점점 더 발전된 모델, 새로운 오픈소스 모델 포함”을 출시할 계획에 대해 썼습니다. Wang은 X에서 향후 버전을 오픈소스화할 것을 언급했습니다.

타임라인 없음. 어떤 모델이나 언제에 대한 구체적인 약속 없음. “향후 버전”이 Muse Spark 자체가 결국 공개된다는 의미인지, 아니면 별도의 오픈 가중치 브랜치가 병렬로 계속된다는 의미인지에 대한 표시 없음.

Zuckerberg가 2024년에 쓴 “오픈소스 AI가 나아갈 길이다”라는 제목의 선언문과 비교해보세요. 그는 Llama를 공개하는 것이 Meta의 수익을 약화시키지 않는다고 주장했습니다. 그건 18개월 전이었습니다. 전략적 계산이 분명히 바뀌었습니다. The Next Web의 분석이 표현했듯이, 폐쇄는 Meta가 이제 자신을 아키텍처 혁신을 공개하는 것이 얻는 것보다 더 많은 비용을 치르는 경쟁 속에 있다고 판단한다는 신호입니다.

여기까지가 제 데이터의 끝입니다. 향후 Muse 모델이 실제로 공개될지는 추측입니다. 구체적인 내용이 나오면 업데이트하겠습니다.

현재 Llama를 사용하는 빌더들에게 의미하는 것

셀프 호스팅 Llama: 여전히 유효, 사용 중단 아님

VentureBeat가 Meta에 Llama 개발이 종료되었는지 직접 물었을 때, 대변인은 이렇게 말했습니다. “현재 Llama 모델은 계속해서 오픈소스로 제공될 것입니다.” 이 문장은 신중하게 표현되어 있습니다. 기존 모델이 계속 제공된다는 것을 확인합니다. 향후 Llama 개발에 대해서는 아무것도 말하지 않습니다.

현재 프로덕션에서 Llama 4 Scout이나 Maverick을 실행하고 있다면, 운영상 아무것도 변하지 않았습니다. 가중치는 여전히 Hugging Face에 있습니다. 커뮤니티 파인튜닝은 여전히 작동합니다. 인프라를 이동할 필요가 없습니다.

운영상의 트레이드오프: 지금 대 기다림

실질적인 상황은 이렇습니다. 작동하는 Llama 배포가 있다면 — 추론 파이프라인이 튜닝되고, 비용이 예측 가능하고, 팀이 파라미터에 익숙한 — 알려진 수량을 가지고 있습니다. Muse Spark API 가격은 발표되지 않았습니다. 공개 API 접근도 발표되지 않았습니다. 비공개 프리뷰는 초대 전용입니다.

셀프 호스팅 오픈 가중치 모델에서 클로즈드 API로 전환하면 지연 시간, 가동 시간, 비용 구조, 데이터 처리에 대한 통제권을 포기하게 됩니다. 일부 팀에게는 이 트레이드오프가 합리적입니다. 다른 팀에게는 그렇지 않습니다. 핵심은 Muse Spark의 API 약관이 공개적으로 존재하지 않기 때문에 아직 트레이드오프를 평가할 수조차 없다는 것입니다.

코딩 워크플로우: 인정된 격차

Llama 배포가 코드 생성, 코드 리뷰 또는 개발자 대면 작업을 처리하는 경우, 지금 당장 Muse Spark를 살펴볼 이유가 없습니다. Meta가 직접 말했습니다 — 코딩은 현재 약점입니다. Terminal-Bench Hard에서 Muse Spark는 Claude Sonnet 4.6과 GPT-5.4 모두에 뒤처집니다. 실제 업무 작업을 측정하는 GDPval-AA에서 Claude Sonnet 4.6의 1,648에 대해 1,427 ELO를 기록합니다.

제 빈도에는 맞습니다. 여러분의 것은 다를 수 있습니다. 하지만 데이터는 이 부분에서 명확합니다.

Meta가 이 움직임을 택한 이유

Llama 4: 인정된 실수

Llama 4는 2025년 4월에 엇갈린 반응을 받으며 출시되었습니다. 벤치마크 논란 — Meta가 LMArena의 점수를 높이기 위해 특수화되고 미공개된 “실험적 채팅 버전”을 사용했습니다 — 은 신뢰성을 손상시켰습니다. 모델 자체는 해당 가중치 클래스에서는 탄탄했지만 최전선을 이동시키지는 못했습니다. 2025년 중반까지, Meta가 OpenAI, Anthropic, Google에 뒤처졌다는 내러티브가 형성되었습니다.

Wang의 임무

2025년 6월, Meta는 Scale AI의 49% 비의결권 지분을 확보하기 위해 143억 달러를 지출하고, 공동 창업자 Alexandr Wang을 최고 AI 책임자로 영입했습니다. 임무는 명확했습니다: 따라잡는 것. Meta Superintelligence Labs가 구성되었습니다. 연구원들이 OpenAI, Anthropic, Google에서 채용되었으며, 지분을 포함하면 수억 달러에 달하는 것으로 알려진 보수 패키지를 받았습니다.

9개월 후, Muse Spark가 첫 번째 결과물입니다. 투자를 정당화하는지 여부는 다음에 무엇이 오느냐에 달려 있습니다. 이 모델은 의도적으로 작고 빠르며, 더 큰 버전이 이미 개발 중입니다.

경쟁 압력

수학은 간단합니다. OpenAI와 Anthropic은 합산 가치가 1조 달러를 넘습니다. Google의 Gemini는 소비자와 개발자 시장 모두에서 입지를 넓혔습니다. Meta는 2025년 AI 인프라에 720억 달러를 지출했고, 2026년에는 1,150억~1,350억 달러로 늘어날 것으로 예상되었으나, 최전선 경쟁 모델이 없었습니다. 무언가 바뀌어야 했습니다.

빌더를 위한 결정 프레임워크

Llama를 유지할 경우:

오픈 가중치가 필요한 경우 — 셀프 호스팅, 파인튜닝, 온프레미스 규정 준수, 또는 비용 통제를 위해. Muse Spark가 인정된 격차를 가진 코딩 중심 워크플로우를 실행하는 경우. 비공개 API 대기 목록에 의존하지 않는 예측 가능하고 자체 관리되는 인프라가 필요한 경우. 이미 Llama 특정 툴링(양자화 파이프라인, LoRA 어댑터, 커스텀 평가)에 투자한 경우.

Muse Spark를 주목할 경우:

Meta의 제품 생태계 내에서 빌딩하는 경우 — Instagram, WhatsApp, Facebook, Messenger와 통합하는 것. 강력한 멀티모달 이해, 특히 시각적 추론이나 건강 관련 작업이 필요한 경우. 공개 API 접근을 기다릴 의향이 있고 가격과 약관이 나오면 평가할 수 있는 경우.

어느 것도 포함하지 않는 것:

이미지 생성. 비디오 생성. 이것들은 별도의 모델 카테고리입니다. Muse Spark는 텍스트 출력 전용이고, Llama 4도 텍스트 출력 전용입니다. 생성 기능이 필요하다면 완전히 다른 도구를 찾아야 합니다.

FAQ

Muse Spark 출시 후에도 Llama 4를 계속 사용할 수 있나요?

네. Llama 4 Scout과 Maverick은 Hugging Face와 Meta의 API 파트너를 통해 계속 제공됩니다. 사용 중단되거나 내려진 것은 없습니다.

Meta가 Muse Spark 가중치를 공개할까요?

Meta는 “향후 버전의 모델을 오픈소스화하기를 희망한다”고 말했습니다. 타임라인도, Muse Spark 자체에 대한 구체적인 약속도, “향후 버전”이 실제로 무엇을 의미하는지에 대한 표시도 없습니다. 이것을 계획이 아닌 희망 사항으로 취급하세요.

코딩에서 Muse Spark가 Llama 4보다 낫나요?

아니요. Meta는 코딩을 현재 격차로 명시적으로 인정합니다. 코딩 특화 벤치마크에서 Muse Spark는 Claude Sonnet 4.6과 GPT-5.4에 뒤처집니다. 코딩이 주요 사용 사례라면, 파인튜닝된 Llama 4 Maverick이나 목적에 맞게 구축된 코딩 모델이 오늘날 더 나은 선택입니다.

다음 Muse 모델은 언제 출시되나요?

Meta는 Muse Spark를 “더 큰 모델이 이미 개발 중인 첫 번째 단계”로 설명했습니다. 날짜 없음. 이름 없음. 존재한다는 확인 외에 사양 없음.

이것이 더 넓은 오픈소스 AI 생태계에 영향을 미치나요?

신호이지, 치명타가 아닙니다. Meta의 오픈 가중치 Llama 모델은 계속 제공됩니다. Mistral, DeepSeek, Alibaba의 Qwen 등 다른 조직들도 오픈 모델을 계속 출시하고 있습니다. 하지만 Meta는 오픈 가중치 최전선 모델의 단일 최대 기업 후원자였습니다. 그들의 최전선 투자가 영구적으로 클로즈드 모델 쪽으로 전환된다면, 생태계는 가장 자금이 풍부한 기여자를 잃게 됩니다. 그것은 몇 주가 아닌 수년에 걸쳐 중요해집니다.

여기까지입니다. API가 공개되면 더 많은 내용을 전달하겠습니다.

이전 게시물: