週間生成AIニュース【2026年4月7日〜4月12日】

今週も生成AI市場では様々なアップデート、リリースがありました。

AnthropicはClaudeシリーズ史上最強のモデルを発表しながらも一般公開せず、同時に企業がAIエージェントを実際の業務で動かすためのインフラを開放しました。MetaはLlamaシリーズで続けてきた「誰でも使えるオープンソース」路線を部分的に手放し、初のクローズドモデルを投入。GoogleはオープンソースのGemma 4を公開し、「データを社外に出せない企業」向けの選択肢を強化しました。

目次

① Claude Mythos Preview発表。最強モデルが一般公開されない理由と、企業が今すべき準備

重要ポイント

  • Claudeシリーズ史上最高性能のモデルが発表されたが、一般には未公開
  • 具体的には、27年間誰も発見できなかったソフトウェアの欠陥をAIが自律的に見つけ、攻撃コードまで完成させることが確認された
  • 今すぐ業務への影響はない。ただし「今後のAIがどこまで変わるか」を示す予告として把握しておく必要がある

ニュース概要

Anthropicが4月7日、Claudeシリーズの最新モデル「Claude Mythos」を発表しました。一般提供は行わず、大手企業12社と組んだ防衛目的の枠組み「Project Glasswing」での限定運用にとどまります。

一般公開を見送った理由は、Mythosがソフトウェアの未発見の欠陥(ゼロデイ脆弱性)を自律的に発見し、攻撃コードを完成させるまでを人間の介入なしに実行できることが確認されたためです。Anthropicは「攻撃者が使えば組織の規模を問わず大規模なサイバー攻撃が可能になる水準」と評価しています。

「能力の量」ではなく「能力の種類」が変わった

前世代のClaude Opus 4.6が同種の攻撃テストでほぼ0%の成功率だったのに対し、MythosはFirefo147の脆弱性から動作する攻撃コードを181回成功させています。Anthropicはこれを「能力の量的な改善ではなく、できることの種類が変わった」と表現しています。

発表に先立ち、Fortuneが社内文書の流出を報じており、そこには「これまで開発した中で最も強力なモデル」「サイバー能力において他のどのAIモデルよりも大幅に優れている」という記述がありました。

Anthropicが公開している脆弱性の発見事例は以下の2件です。

発見された欠陥 概要
OpenBSD・27年間未発見の欠陥 セキュリティで定評のあるOS(基本ソフト)に27年間誰も発見できなかった欠陥が存在。Mythosが最初の指示への返答として自律的に発見
FreeBSD・外部から管理者権限を奪える欠陥 17年間存在していた欠陥を発見するだけでなく、インターネット経由で認証なしにサーバーの管理者権限を奪う攻撃コードまで自律完成

参考:Anthropic

Project Glasswingとは。Amazon・Apple・Googleなど12社が防衛目的で限定利用

Anthropicは一般公開の代わりに、Amazon・Apple・Google・Microsoft・Nvidiaなど12社と「Project Glasswing」を立ち上げました。参加企業はMythosを防衛目的にのみ使用し、発見した脆弱性を業界全体で修正・共有する義務を負います。Anthropicはこの枠組みに最大1億ドル相当のサービス枠を提供しています。

以下の表は主要な評価試験でのスコアです。差が5点あれば実務での差が出始め、10点以上あれば各種性能/パフォーマンスにおいて、ベンチマークしたモデルを上回る性能であると言えます。

評価項目 Claude Mythos Claude Opus 4.6(現在の最上位モデル)
コーディング実務(SWE-bench) 93.9点 80.8点 +13点
自律タスク実行(Terminal-Bench) 82.0点 65.4点 +16点
数学オリンピック級の数学問題(USAMO) 97.6点 42.3点 +55点
セキュリティ分析(CyberGym) 83.1点 66.6点 +16点

参考:Anthropic / llm-stats.com

今後は、より強いセキュリティ体制を敷くことが重要に

現在使用しているClaudeの料金・機能に変更はありません。Mythosは今後も一般提供の予定はなく、直近の業務判断への影響はありません。

ただし、Glasswingで発見・修正された脆弱性は今後数年でOSやブラウザのパッチとして反映されていきます。CrowdStrikeの2026年レポートではAIを用いたサイバー攻撃が前年比89%増加しており、パッチ適用の遅延がリスクになる状況が加速しています。AIを活用したサイバー攻撃への対策を企業として進めていくことが重要です。

関連記事

  2026年4月7日、AnthropicがClaude MythosのPreview版を発表しました。同社の現時点での最高性能モデルですが、Anthropicは一般提供はしないと明言しています。 モデル発表と同時にAma[…]

② Claude Managed Agents提供開始。AIエージェントを安全に活用するための活用基盤

重要ポイント

  • AIエージェントを本番業務で動かすためのインフラ一式を、Anthropicが提供するサービスが開始
  • 楽天が5部門のエージェントを1週間以内に展開した事例が公開。Notion・Asana・Sentryも本番利用中
  • 料金は公開・従量課金で、実際に動いている時間1時間あたり約12円。社内稟議でROI試算が可能

ニュース概要

多くの企業でAIエージェントの実験(PoC)が本番導入に進まない主因は、モデルの性能ではなく稼働環境の構築コストにあります。エージェントを本番で動かすには、安全な実行環境・外部ツールへのアクセス権限管理・障害時の自動復旧・監査ログといったインフラが必要で、自前で構築すると数ヶ月を要します。

Claude Managed Agentsはこれらをまとめてマネージドで提供するサービスです。Anthropicは「インフラ構築に数ヶ月かかっていたものを数日で本番展開できる」と説明しています。

なぜほとんどの企業でAIエージェントがPoC止まりなのか

多くの企業がAIエージェントの実験(PoC:概念実証)から先に進めていない理由は、AIモデルの性能の問題ではありません。「動かすための環境」の構築コストが問題です。

自前で用意しようとすると、以下がすべて必要になります。

  • AIがコードを実行するための隔離された安全な環境
  • 外部ツール(SlackやSalesforce)へのアクセス権限の管理
  • 長時間作業の途中でAIが止まったときの自動再開の仕組み
  • 「AIが何をやったか」を確認するための記録と監査ログ

ゼロから構築すると数ヶ月かかってしまうところを、Anthropicは「数ヶ月かかっていたインフラ構築が数日になる」と説明しています。

実際に本サービスを導入・活用している株式会社楽天は、商品・営業・マーケティング・財務・HRの各部門向けAIエージェントをそれぞれ1週間程度で展開しました。各エージェントはSlackやMicrosoft Teamsに接続しており、部門メンバーがチャット上でタスクを依頼するとデータ集計やスライド作成を実行します。通常は部門ごとに個別のインフラ構築が必要なところを、共通基盤の活用で展開コストを大幅に圧縮した事例です。

Claude Managed AgentsとOpenAI Frontierの違い

2026年2月にOpenAIも「OpenAI Frontier」という同方向性のサービスを発表しており、企業向けAIエージェント基盤をめぐる競争が本格化しています。

比べる点 Claude Managed Agents OpenAI Frontier
始め方 開発者がAPIからセットアップ OpenAIの営業担当と個別に契約
料金 公開。動いた時間分だけ払う 非公開。個別見積もり
どんな会社に向いているか エンジニアがいる中規模チーム SalesforceやWorkdayと深く統合したい大企業
使えるAIモデル Claudeのみ 複数社のAIに対応

エンジニアがいる中規模チームでエージェントを試す場合はManaged Agentsが現実的です。SalesforceやWorkdayなど既存の大規模システムとの深い統合が必要な大企業はFrontierが選択肢になりますが、現時点では個別交渉が前提です

参考:Anthropic / The New Stack

関連記事

2026年4月8日、AnthropicがClaude Managed Agentsのパブリックベータを開始しました。AIエージェントを自社で動かすための「インフラ一式をまとめて提供する」マネージドサービスで、Notion・Rakuten・A[…]

③ Meta、初のクローズドモデル「Muse Spark」を発表。クローズモデル開発の背景と、業務での使い所

重要ポイント

  • Metaが初めてクローズドモデル(設計を非公開にしたAI)を公開した。業界の勢力図に関わる戦略の変化
  • 医療推論と図表理解でGPT・Claude・Geminiをすべて上回るスコアを記録
  • コーディングや抽象的な推論は競合に差がある。汎用業務での全面的な乗り換えは現時点では時期尚早

ニュース概要

4月8日、MetaのMeta Superintelligence Labs(MSL)がマルチモーダル推論モデル「Muse Spark」を発表しました。MetaはこれまでLlamaシリーズをオープンソースで公開してきましたが、Muse SparkはAnthropicのClaudeやOpenAIのGPTと同じクローズド形式での提供です。Metaが自社開発モデルをクローズドで公開するのは初めてです。

現在はmeta.aiで一般ユーザー向けに無料提供中ですが、開発者向けAPIは限定パートナーへのプレビューにとどまります。

なぜMetaはクローズド形式を選択したのか

LlamaシリーズのオープンソースによってMetaは世界中の開発者エコシステムを形成してきました。GitHubには10万以上のLlamaベース派生モデルが存在します。ただし設計の公開は、競合他社がアーキテクチャを分析して自社開発に転用することを可能にするリスクも伴います。

今週のClaude Mythosのように、Metaを大幅に上回る性能のモデルが登場するなかで、最前線のアーキテクチャをそのまま公開し続けることが困難になったという判断と見られます。The Next Webは「競争が激化し、オープンソースを維持する余裕がなくなったシグナルだ」と評しています。

一方で、LlamaシリーズはオープンソースのままMetaが継続開発する予定です。フロンティアモデルはクローズド、実用・研究向けはLlamaオープンという二層構造が当面の方針です。

Muse Sparkの3つの特徴

① 3段階の推論モード

AIが回答を出す際、用途に応じて推論の深さを切り替えられます。

モード 特徴 向いている用途
Instant(即答) 素早く回答 簡単な質問・日常的な作業
Thinking(熟考) 問題を段階的に分解して推論 複雑な分析・判断が必要な業務
Contemplating(並列熟考) 複数のAIが独立して推論し、結果を統合 難度の高い推論。最も精度が高い

「Contemplating」モードは、複数のAIが同時に独立して推論することで、単一モデルが長く考えるより速く正確な結論を出せる設計です。

② 学習効率の大幅向上

同等の回答品質に対して、GPT-5.4の約半分、Claude Opus 4.6の約3分の1のトークン数で処理が完了します。API利用コストに直結するため、大規模に運用する企業では費用面の優位性があります。

③ 医療・健康分野での突出した性能

1,000人以上の医師と協力して医療・健康領域の学習データを整備。HealthBench Hardでは競合モデルを上回るスコアを記録しています。

④主要ベンチマーク比較

医療推論と図表理解では競合を上回りますが、コーディングと抽象推論では差が残ります。Metaも自社ブログでこの点を明示し、継続投資中としています。

評価している能力 Muse Spark GPT-5.4 Claude Opus 4.6 Gemini 3.1 Pro
医療推論(HealthBench Hard) 42.8 40.1 14.8 20.6
グラフ・図の読み取り(CharXiv) 86.4 82.8 65.3 80.2
コーディング実務(SWE-bench) 77.4 80.6 80.8 80.6
抽象的な推論(ARC AGI 2) 42.5 76.1 76.5
自律タスク実行(Terminal-Bench) 59.0 75.1 65.4 68.5

参考:Meta

関連記事

2026年4月8日、MetaがAIモデル「Muse Spark」を発表しました。Meta Superintelligence Labs(MSL)が開発した最初のモデルで、現在meta.aiとMeta AIアプリで利用できます。 この発[…]

④ Google、Gemma 4をApache 2.0で公開。「データを社外に出さない」企業向けオンデバイスエージェント

重要ポイント

  • Google DeepMindがオープンウェイトモデル「Gemma 4」をApache 2.0ライセンスで公開。商用利用・改変・再配布が無償で可能
  • 自社サーバーや端末上でエージェントとして動作し、データが外部に送信されない
  • E2B〜31Bの4サイズ展開で、スマートフォンからサーバーまで対応

ニュース概要

Google DeepMindが4月2日、オープンウェイトモデルファミリー「Gemma 4」をApache 2.0ライセンスで公開しました。

Gemini 3の研究成果を転用して開発されており、自社サーバーや端末にインストールして動かせます。データ処理がすべて社内で完結するため、外部サービスへのデータ送信が制約される業務でも利用できます。

従来のオープンモデルと異なり、エージェント実行へ対応

これまでのオープンモデルは主に「質問に答える」用途を想定していました。Gemma 4は設計段階からエージェントとして作られており、クラウドに接続せずに以下を実行できます。

  • 複数ステップにわたる計画の立案と実行
  • 外部ツール・社内システムとの連携(ファンクションコーリング対応)
  • コード生成から実行まで(オフライン環境でも動作)
  • テキスト・画像・音声のマルチモーダル処理

Gemma 4の各種サイズ展開と、対応ハードウェア

Gemma 4は4つのサイズで提供されており、自社の環境に合わせて選択できます。

31Bモデルはオープンモデルのリーダーボードで3位(ELO 1452)。数学(AIME 2026)で89.2%、コーディング(LiveCodeBench)で80.0%と、オープンモデルとしてはトップクラスの水準です。

サイズ 対応ハードウェア 主な用途
E2B スマートフォン・小型PC 軽量処理・オフライン翻訳
E4B 高性能ノートPC 文書処理・コード補完
26B A4B(MoE) 消費者向けGPU搭載PC コスト重視のサーバー運用
31B ワークステーション・サーバー 高精度推論・社内基盤モデル

参考:Google DeepMind / Google Cloud

【Taskhub編集部まとめ】今週登場したモデルを含めた8モデルを用途別に比較。モデル競争から基盤競争へ、業界の移行が鮮明に

今週だけで複数のモデルが発表されました。「自社に何が使えるか」という軸で整理します。

モデル 強い領域 向いている用途 向いていない用途
Claude Mythos コーディング・セキュリティ分析 —(現在利用不可)
Claude Opus 4.6 複雑な推論・長文処理・ツール連携 業務エージェント・複雑な文書処理 コスト重視の軽量タスク
Claude Sonnet 4.6 日常的な自動化・文書処理 導入初期・コスト重視の用途 高精度が求められる複雑な推論
GPT-5.4 画面操作の自動化・抽象推論 コーディング・ブラウザ操作自動化 データを社外に出せない業務
Gemini 3.1 Pro 推論・Google製品との連携 Google Workspace利用企業 Google製品を使っていない環境
Muse Spark 医療推論・図表理解 医療・ヘルスケア業務・図表読み取り コーディング・抽象推論が主な用途
Gemma 4(31B) オンデバイスエージェント実行 データを社外に出せない業務 最高性能が求められる汎用タスク
Grok 4.2(β) リアルタイム情報収集 X連携・最新情報収集が必要な用途 定型業務の自動化・文書処理

モデルの選定は「自社が今どの段階にいるか」で変わります。

AIツールの導入初期(個人・チーム単位での活用:Claude Sonnet 4.6が現実的な入口です。無料プランで試用でき、文書処理・情報整理・メール作成といった日常業務への適用がそのまま始められます。ChatGPT(GPT-5.4)も同様の入口として機能しますが、Google Workspaceを全社導入している企業はGemini 3.1 Proとの統合が最も摩擦が少ない選択です。

エージェント化・業務フロー自動化の段階:Claude Opus 4.6とClaude Managed Agentsの組み合わせが現時点での最も整備された選択肢です。楽天の事例で示されたように、Slack・Teams連携のエージェントを部門単位で展開する場合、インフラ込みで提供されるManaged Agentsは展開コストを大幅に下げます。

データを社外に出せない業務への適用:Gemma 4が現実的な選択肢になります。Apache 2.0で無償利用でき、自社サーバー上でエージェントとして動作します。クラウドAIの導入がセキュリティポリシーや個人情報保護法の制約で進んでいない部門に対して、技術的な突破口になります。

特定領域への特化活用:医療・ヘルスケア・製薬に関わる文書処理や図表読み取りであればMuse Sparkが競合を上回ります。リアルタイムの市場情報収集やSNS動向把握が主用途であればGrok 4.2が選択肢になります。

まとめ

今週は1週間でClaude Mythos・Muse Spark・Gemma 4が相次いで発表され、各社のAI戦略の方向性が明確になった週でした。

性能面ではClaude Mythosが現在公開されているどのモデルも上回る水準を示しましたが、一般提供は行われていません。現時点で業務に直接影響するのはClaude Managed Agentsのパブリックβ開始です。エージェントのPoC止まりが続いている企業にとって、インフラコストの問題を解消する実務的な選択肢が整いました。

Muse SparkとGemma 4は、特定の用途・制約条件に応じた使い分けの選択肢として加わりました。医療・ヘルスケア領域ではMuse Spark、データを社外に出せない業務ではGemma 4が、既存のクラウドAIでは対応しきれなかった領域をカバーします。

業界全体では「モデルの性能競争」から「エージェント基盤の競争」への移行が加速しており、AnthropicとOpenAIの両社がほぼ同時期にエージェント実行基盤を投入したことがその象徴です。DX担当者として今週押さえるべき判断は、自社のAI活用がどのフェーズにあるかを確認し、次のフェーズに進む際の障壁が「モデルの性能」にあるのか「インフラ」にあるのか「データポリシー」にあるのかを明確にすることです。