Microsoft Critiqueとは?GPTが書き、Claudeが検証する、Copilot Researcherの新機能を解説!

2026年3月30日、MicrosoftはMicrosoft 365 Copilotのリサーチエージェント「Researcher」に、新機能「Critique」と「Council」を追加しました。OpenAIのGPTとAnthropicのClaudeという2つのAIモデルを組み合わせ、GPTがDeep Researchとして調査・初稿作成を行い、Claudeがその正確性・網羅性・引用の質を検証してからユーザーに提示するというマルチモデル構成が特徴です。

本記事では、Critiqueの仕組み・Councilとの違い・ベンチマーク結果・利用条件について解説します。

Copilot新機能「Critique」とは

Critiqueは、Microsoft 365 Copilotに搭載されたResearcherエージェントの新しいDeep Research機能です。
最大の特徴は、「生成」と「評価」を異なるAIモデルに分離するマルチモデルアーキテクチャにあります。

従来のAIリサーチツールは、1つのモデルが計画・情報収集・文章生成・品質チェックまでをすべて担っていました。
Critiqueはこのプロセスを2段階に分け、それぞれを別のモデルが担当します。

One model leads the generation phase, planning the task, iterating through retrieval, and producing an initial draft, while a second model focuses on review and refinement, acting as an expert reviewer before the final report is produced.

訳:一方のモデルが生成フェーズをリードし、タスクの計画・検索の反復・初稿の作成を行う。もう一方のモデルはレビューと改善に集中し、最終レポートが作成される前に専門レビュアーとして機能する。

引用:Microsoft

今回は、OpenAIの「GPT」とAnthropicの「Claude」の2モデルが採用されており、GPTが「Deep Researchとして調査・執筆する役」、Claudeが「ルーブリックに基づいて赤入れ・仕上げする役」を担う構成となっています。Critiqueは、Researcherでモデルピッカーの「Auto」を選択した際のデフォルト体験として提供されます。

引用:Microsoft

なぜGPTとClaudeの組み合わせたのか

同じモデルで生成と検証を行うと、モデル固有のバイアスや知識の偏りが検出されにくくなります。異なるアーキテクチャ・異なる学習データを持つ2つのモデルを組み合わせることで、一方が見落としやすいエラーをもう一方が検出できる可能性が高まります。

Microsoftは将来的にこのワークフローを双方向にする予定で、Claudeが初稿を書きGPTが検証するパターンも実装される見込みです。

Critiqueの仕組み

第1フェーズ:GPTによるDeep Research(生成)

GPTがResearchエージェントとして、リサーチタスクの計画立案、複数ソースからの情報検索の反復(retrieval)、
そして初稿の作成までを一貫して担当します。ここでは探索の幅広さと構造化された文章の合成が実施されます。

第2フェーズ:Claudeによるレビュー(評価)

Claudeがレビュー担当として、GPTが生成した初稿を評価します。Microsoftの公式ブログによると、この検証は学術論文や専門的な調査レポートのピアレビューに近い「ルーブリック(評価基準)ベースの評価」であり、以下の3つの観点で実施されます。

この検証プロセスを経た後、改善が加えられた最終レポートがユーザーに提示されます。

評価基準 内容
1 ソースの信頼性評価 権威性の高い、検証可能なソースが適切に使用されているかを確認
2 レポートの完全性 ユーザーのリクエストに対して網羅的かつ独自の洞察を含む回答になっているかを評価
3 厳格なエビデンスグラウンディングの適用 すべての主要な主張が信頼できるソースに紐づけられ、正確な引用が付されているかを検証

参考:Microsoft

もう一つの新機能「Council」とは

Critiqueと同時に発表された「Council」は、異なるアプローチを取る機能です。

Critiqueが「モデル同士を連携させる(コラボレーション型)」であるのに対し、Councilは「モデル同士を競わせる(比較型)」という位置づけになります。

GPTとClaudeが同じクエリに対してそれぞれ独立にリサーチレポートを作成し、第三の「ジャッジモデル」が両方のレポートを読み比べたうえで、一致点・相違点・各モデルが独自に発見した観点をまとめたレポートを生成します。

ユーザーは2つのモデルの回答を並べて比較し、どちらがより自分のニーズに合っているかを判断できます。

CritiqueとCouncilの使い分け:

機能 方式 適したシーン
Critique GPTがDeep Research→Claudeが検証(連携型) 信頼性の高い最終レポートが必要な場面
Council GPTとClaudeが並行して生成→ジャッジが比較(比較型) 多角的な分析が必要で、正解が一つでない場面

Critiqueはモデルピッカーで「Auto」を選んだ際のデフォルト、Councilは「Model Council」を選択すると利用できます

Critiqueのベンチマーク評価

Microsoftは、Deep Researchの品質を測る業界標準ベンチマーク「DRACO(Deep Research Accuracy, Completeness, and Objectivity)」でCritiqueを評価しています。DRACOは、医学・法律・テクノロジーなど10分野にわたる100の複雑なリサーチタスクで構成されるベンチマークで、2026年2月にPerplexityと学術機関の研究者らが発表しています。

Deep Researchの品質において、OpenAI/Google/Anthropic等の単体モデルのパフォーマンスを超える品質を提供できることがわかります。

引用:Microsoft

改善の内訳を見ると、最も大きかったのは「分析の幅と深さ」(+3.33)で、次いで「プレゼンテーション品質」(+3.04)、「事実の正確性」(+2.58)と続きます。その他の比較項目においても、全ての項目で統計的に有意な改善が確認されています。

CritiqueとCouncilの利用条件

CritiqueとCouncilは、Microsoft 365 Copilotライセンスを持つユーザーがResearcherエージェント内で利用できます。
Critiqueはモデルピッカーで「Auto」を選択した際のデフォルト体験として提供されるため、特別な設定は不要です。

Councilを使いたい場合は、モデルピッカーから「Model Council」を選択します。いずれもFrontierプログラムを通じて提供されています

項目 内容
対象製品 Microsoft 365 Copilot(Researcherエージェント)
必要ライセンス Microsoft 365 Copilotライセンス
Critique モデルピッカーで「Auto」選択時のデフォルト
Council モデルピッカーから「Model Council」を選択
提供プログラム Frontierプログラム

Critiqueの注意点

Critiqueには期待が集まる一方で、いくつかの留意点もあります。

ClaudeがGPTの出力を検証する仕組みですが、Claude自身が見落とすエラーや、GPTが信頼性の低いソースから合成した情報をClaudeが検出できないケースもあり得ます。誤った回答の二次利用によるレピュテーションリスクを避けるためにも、最終的な品質判断には、使用者自身による最終確認が必要です。

また、コスト面にも注意が必要です。2つのモデルを順番に実行するマルチモデル構成は、単一モデルよりも計算リソースを多く消費します。
エンタープライズ顧客のライセンスコストへの影響については、現時点で詳細が公表されていませんので、注意が必要です。

まとめ

Microsoft CritiqueはCopilot Researcherに追加された新しいDeep Research機能で、GPTによる調査・初稿作成(Deep Research)とClaudeによるルーブリックベースの検証を組み合わせることで、リサーチ品質の向上を図るものです。

ポイントを整理すると、Critiqueは「生成」と「評価」を異なるモデルに分離するマルチモデルアーキテクチャで、DRACOベンチマークで既存のDeep Researchツールを13.8%上回る結果をMicrosoftが報告しています。Councilは複数モデルの回答を並べて比較する機能で、多角的な分析に適しています。

AIリサーチツールの競争が「どのモデルが最も賢いか」から「どう組み合わせれば最も信頼できるか」へと移りつつある中、Microsoftのマルチモデルアプローチは一つの方向性を示しています。Microsoft 365 Copilotを利用中の方は、Researcherエージェントで実際にCritiqueを試してみてください。