Metaが最新AIモデル「Muse Spark」を発表｜特徴・ベンチマーク・他社モデルとの違いを解説

2026年4月9日
AIニュース

2026年4月8日、MetaがAIモデル「Muse Spark」を発表しました。Meta Superintelligence Labs（MSL）が開発した最初のモデルで、現在meta.aiとMeta AIアプリで利用できます。

この発表が注目される理由は性能だけではありません。Metaはこれまで「Llama」シリーズと呼ばれるAIモデルをオープンソースとして公開し、世界中の開発者が自由に使える形で提供してきました。Muse Sparkはその路線を変え、コードや設計を非公開とするクローズドモデルとして提供されます。Metaが自社開発したAIモデルをクローズドで公開するのは、これが初めてです。

この記事では、Muse Sparkの概要・性能・MetaのAI戦略における位置づけを整理します。

1 Muse Sparkとは
2 Muse Sparkの主な特徴4選
3 Muse Sparkのベンチマーク評価
4 Meta初のクローズドモデルの公開から読み取る戦略の変化
5 まとめ

Muse Sparkとは

Muse SparkはMetaのMeta Superintelligence Labs（MSL）が開発した、テキスト・画像・音声を入力として扱えるマルチモーダル推論モデルです。内部コードネームは「Avocado」で、今後展開予定の「Muse」シリーズの最初のモデルという位置づけです。

参考：Meta

Metaが以前に手がけたLlamaシリーズは、コードを公開することで誰でも自由に使ったり改良できるオープンソースモデルでした。一方でMuse Sparkは、Anthropicの「Claude」やOpenAIの「GPT」と同じクローズドモデルの形式にて提供されており、Metaが管理・運営するサービス上でのアクセスやAPIを通じてのみ使える形に限定されています。

「Meta初の自社AIモデル」について補足しておきます。2026年初頭にMetaはAIエージェントサービスの「Manus」を買収したことで話題になりましたが、ManusはMetaが1から開発したモデルではなく、外部のサービスを取得したものです。Muse Sparkは文字通りMetaの研究チームが設計・開発し、クローズドで公開する初めてのモデルになります。

Muse Sparkの主な特徴4選

①ネイティブマルチモーダル設計

Muse Sparkはテキストと画像・動画を最初から統合した設計になっており、文章だけでなく視覚情報を使った推論ができます。これまでのAIモデルの多くは、テキスト処理を中心に設計されたうえで画像認識機能を後から追加していましたが、Muse Sparkは最初から両方を組み合わせた設計になっています。

具体的な用途としてMetaが挙げているのは、食品の写真を撮ってタンパク質量を調べる、家電の故障をカメラで見せて原因を診断する、といったケースです。FacebookやInstagramといった画像・動画中心のプラットフォームを持つMetaにとって、視覚理解の精度はとりわけ重要な指標です。

②3段階の推論モード

Muse Sparkには用途に応じた3つの推論モードが用意されています。

モード	特徴	用途・設計
Instant	高速応答モード	通常の会話や簡単な質問に向いている
Thinking	深い推論モード	複雑な問題を段階的に分解しながら考える。標準的なフロンティアモデルと同水準のベンチマーク結果を示す
Contemplating	並列マルチエージェント推論モード	複数のAIエージェントが並列で別々の角度から推論し結果を統合。応答時間を抑えながら精度を向上させる

Instantモードは通常の会話や簡単な質問に向けた高速応答モードです。Thinkingモードは複雑な問題を段階的に分解しながら考える深い推論モードで、標準的なフロンティアモデルと同水準のベンチマーク結果を示しています。Contemplating（熟考）モードは複数のAIエージェントが並列で別々の角度から推論し、結果を統合する設計です。単一のモデルが長く考えるのではなく、複数が同時に考えることで応答時間を抑えながら精度を上げられるのが特徴です。

特に「Contemplatingモード」については、OpenAIのGPT ProやGoogleのGeminiのDeep Thinkに相当する「最上位の推論モード」として位置づけられており、Humanity’s Last Exam（多分野の難問テスト）で58%、FrontierScience Researchで38%と、各LLMモデルの熟考モードを上回るスコアを記録しています。

参考：Meta

③学習効率の大幅向上

MetaはMuse Sparkが、前世代のLlama 4 Maverickと同等の性能を「10倍以上少ない計算量」で達成していると発表しています。AIモデルの学習には膨大な電力とコンピューターの処理能力が必要で、同じ性能をより少ないコストで実現できることは、モデルの改良サイクルを加速させるうえで重要な要素です。Metaはこの効率改善を、モデルの設計・学習アルゴリズム・データの整備方法をすべて見直した結果として説明しています。

参考：Meta

この効率へのこだわりは、回答を出すときにも現れています。AIが質問に答えるとき、内部では文章を細かい単位（トークン）に分解しながら処理を進めています。処理するトークンが多ければ多いほど、時間もコストもかかります。Muse Sparkは「思考圧縮（Thought Compression）」と呼ばれる手法を取り入れており、無駄に長く考えることなく答えにたどり着くよう訓練されています。実際の測定では、他のフロンティアモデルと同等のテストに対してClaudeの約3分の1、GPT-5.4の約2分の1のトークン数で回答を完了しています。

④健康分野への特化

Muse Sparkでは、1,000人以上の医師と協力して医療・健康に関する学習データを整備しており、健康に関する質問への回答精度を高めています。HealthBench Hardという医療推論ベンチマークでは、GPT-5.4・Claude Opus 4.6・Gemini 3.1 Proをすべて上回るスコアを出しています。

▼左からMuse Spark(Thinking)、Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4、Grok 4.2

Metaが「パーソナル・スーパーインテリジェンス」という言葉を使っているのは、汎用的なAIではなく、ユーザーの生活・健康・習慣といった個人の文脈に根ざしたアシスタントを目指していることを示しています。

Muse Sparkのベンチマーク評価

独立した評価機関であるArtificial AnalysisがMetaから早期アクセスを受けて実施したベンチマークでは、Muse Sparkは「Artificial Analysis Intelligence Index v4.0」でスコア52を記録し、Gemini 3.1 Pro Preview（57）・GPT-5.4（57）・Claude Opus 4.6（53）に次ぐ4位にランクされています。前世代のLlama 4 Maverickが同インデックスで18点だったことを考えると、1世代で大幅に水準を引き上げたことがわかります。

また、医療・健康に関する推論と図表・画像理解では、競合モデルを明確に上回っています。HealthBench Hardではグラフや画像を含む医療に関する難問に回答するテストで、Claude Opus 4.6（14.8）やGemini 3.1 Pro（20.6）を大幅に上回る42.8を記録しています。これはMetaが医師1,000人以上と協力してトレーニングデータを整備した効果が出ている指標であり、競合が十分に対応できていない領域をMetaが先行して埋めようとしていることが読み取れます。

一方で、抽象推論・コーディング・複数ステップにわたる自律タスクでは他社モデルとの差が大きい状態です。特にARC AGI 2（抽象的なパターン認識テスト）ではMuse Spark（42.5）に対しGPT-5.4（76.1）・Gemini 3.1 Pro（76.5）と30ポイント以上の差があります。コーディング支援や複雑な業務タスクをAIに任せたい場面では、現時点では他のモデルを選ぶほうが現実的です。MetaもこれらをブログのなかでNoteとして明記しており、「継続的に投資している」と説明しています。

ベンチマーク	Muse Spark	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
HealthBench Hard（医療推論）	42.8	40.1	14.8	20.6
CharXiv Reasoning（図表理解）	86.4	82.8	65.3	80.2
MMMU-Pro（マルチモーダル性能）	80.5	79.1	ー	82.4
GPQA Diamond（大学院レベルの科学問題）	89.5	92.8	92.7	94.3
SWE-bench Verified（コーディング性能）	77.4	80.6	80.8	80.6
ARC AGI 2（抽象的な推論能力）	42.5	76.1	ー	76.5
Terminal-Bench 2.0（エージェント性能）	59.0	75.1	65.4	68.5

Meta初のクローズドモデルの公開から読み取る戦略の変化

LlamaシリーズをオープンソースとすることでMetaは、世界中の開発者・研究者がそのモデルを使って製品を作る「エコシステム」を育ててきました。GitHubには10万以上のLlamaベースの派生モデルが存在し、大学の研究から商用サービスまで広く使われています。OpenAIやAnthropicが完全クローズドの立場をとるなかで、Metaはオープンソースを旗印に差別化してきました。

ただし、この路線には競争上の裏面もあります。モデルの設計を公開することは、競合他社がその構造を分析し、同等の技術を自社開発に取り込むことを可能にします。Claude Mythos PreviewのようにMetaを大幅に上回る性能のモデルが登場するなかで、アーキテクチャの革新を競合にそのまま渡す余裕がなくなってきたという読み方もできます。The Next Webは「Muse Sparkのクローズド化は、Metaが能力ギャップを縮める余裕がないほど競争が激化していることを示すシグナルだ」と評しています。

参考：The Next Web

Metaは「将来のバージョンはオープンソース化したい」と述べており、今回のクローズド化を永続的な方針転換とは位置づけていません。Llamaシリーズの開発・公開は今後も継続される予定で、Muse Sparkとは別ラインとして並走する形になると見られます。フロンティアモデルはクローズド、オープンソースモデルはLlamaという使い分けが、当面のMetaの戦略になりそうです。

まとめ

Muse SparkはMetaが2026年4月8日に公開した、Meta Superintelligence Labs初のモデルで、同社初のクローズドモデルです。

Artificial Analysis Intelligence Indexでは総合4位（スコア52）。医療推論・図表理解・トークン効率で競合を上回る一方、コーディングと抽象推論では他社との差が残ります。現時点では一般ユーザーはmeta.aiで無料で試せますが、開発者向けAPIは限定パートナー向けのプレビューに留まっています。

AI業界ではOpenAI・Anthropic・Googleの三強が長く牽引してきましたが、Muse Sparkはそれら三強に、Metaが追従してきたことを示しています。次世代モデルの開発は既に進行中とされており、今後のMuseシリーズの展開が注目されます