OpenAIがGPT-5.5を公開!特徴・料金・ユースケースなどを解説

2026年4月23日、OpenAIは最新AIモデル「GPT-5.5」と上位版「GPT-5.5 Pro」を発表しました。

GPT-5.5は、コーディング、オンライン調査、データ分析、文書作成、スプレッドシート作成、ソフトウェア操作など、複数ステップにわたる作業をAIが自律的に進める能力を強化したモデルです。OpenAIはGPT-5.5について、「実務のための新しい知能クラス」と位置付けています。

この記事では、GPT-5.5の特徴、料金、向いているユースケースをわかりやすく解説します。

GPT-5.5とは

GPT-5.5は、OpenAIが発表した最新の上位AIモデルです。コードネームは「Spud」とされ、ChatGPTおよびCodexに搭載されています。従来のモデルでも文章作成や要約、コード生成は可能でしたが、GPT-5.5では特に以下のような作業に強みがあります。

  • 複数ファイルをまたぐコード修正
  • バグの特定、修正、テスト作成
  • Web調査と情報整理
  • データ分析
  • ドキュメントやスプレッドシートの作成
  • ソフトウェアやブラウザを操作するタスク
  • 複数のツールを使いながら最後まで作業を進めるタスク

OpenAIはGPT-5.5について、ユーザーがやりたいことをより速く理解し、計画、ツール利用、作業確認、曖昧な状況への対応をしながらタスクを進められるモデルと説明しています。

GPT‑5.5 understands what you’re trying to do faster and can carry more of the work itself. It excels at writing and debugging code, researching online, analyzing data, creating documents and spreadsheets, operating software, and moving across tools until a task is finished. Instead of carefully managing every step, you can give GPT‑5.5 a messy, multi-part task and trust it to plan, use tools, check its work, navigate through ambiguity, and keep going.

訳:

GPT-5.5は、ユーザーが何をしようとしているかをより素早く理解し、作業の多くを自らこなすことができます。コードの記述やデバッグ、オンラインでの調査、データ分析、文書やスプレッドシートの作成、ソフトウェアの操作、そしてタスクが完了するまで複数のツールを切り替えて作業を進めることにおいて、特に優れています。すべてのステップを細かく管理する代わりに、GPT-5.5に複雑で多段階のタスクを任せ、計画の立案、ツールの使用、作業の確認、曖昧な状況への対応、そして継続的な実行を任せることができます。

引用:OpenAI

GPT-5.5のベンチマーク評価

GPT-5.5のポイントは大きく2つです。ベンチマーク評価を見ると「AIに手を動かしてもらう」用途ではGPT-5.5が突出しており、自律コーディング・PC操作・ツール活用のすべてで競合を上回っています。一方、日常的なビジネス文書作成や情報整理はGPT-5.4でもすでに高水準に達していたため、日常的な活用シーンでの体感差は限定的かもしれません。GPT-5.5の活用効果が最も出るのは、複雑なコーディング、高度な数学的推論など、難易度の高いタスクをより自律的に進行させる際に確認できるでしょう。

また、GPT-5.5 Proは「全分野で他モデルよりも優れた上位モデル」ではありません。知識労働ではむしろ標準版より低いスコアが出ており、Proの優位性は、特にウェブ調査や難しい数学・推論タスクで出やすいと考えられます。普段のビジネス用途であれば、Plusプラン($20/月)の標準GPT-5.5で十分なケースがほとんどです。

ベンチマーク GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.0 82.7% 75.1% 69.4% 68.5%
Expert-SWE (Internal) 73.1% 68.5%
GDPval (wins or ties) 84.9% 83.0% 82.3% 82.0% 80.3% 67.3%
OSWorld-Verified 78.7% 75.0% 78.0%
Toolathlon 55.6% 54.6% 48.8%
BrowseComp 84.4% 82.7% 90.1% 89.3% 79.3% 85.9%
FrontierMath Tier 1–3 51.7% 47.6% 52.4% 50.0% 43.8% 36.9%
FrontierMath Tier 4 35.4% 27.1% 39.6% 38.0% 22.9% 16.7%
CyberGym 81.8% 79.0% 73.1%
引用:OpenAI

GPT-5.5で何が変わったのか?主な4つの特徴

①コーディング作業の自律性が向上

GPT-5.5は、コードを書く能力だけでなく、エラーを確認し、原因を特定し、修正し、テストまで進めるような複合的なコーディング作業に強みがあります。OpenAIの発表では、GPT-5.5はコーディングやデバッグ、ツール利用、長い作業の遂行において改善されたモデルとして紹介されています。

これにより、以下のような作業で効果が出やすくなります。

  • 既存コードのリファクタリング
  • バグ修正
  • テストコード作成
  • エラー原因の調査
  • 複数ファイルにまたがる修正
  • 仕様変更に伴う実装変更

単発のコード補完ではなく、人間が数十分〜数時間かけて行うような作業を、AIにまとめて依頼する使い方に向いています。

②研究・高度な推論タスクにも対応しやすくなった

GPT-5.5は、科学研究や高度な数学的推論の領域でも改善が示されています。OpenAIの発表では、専門的な業務、研究、データ分析、複雑な推論を要するタスクにおける性能向上が示されています。

ただし、すべての領域で常にGPT-5.5が他モデルを上回るわけではありません。ツールを使わない純粋な難問推論では、Claudeなどの競合モデルが強い場面もあります。

そのため、GPT-5.5は「何でも一番強いモデル」というより、作業を進める力が強いモデルと捉えるのが適切です。

③PC操作・ツール活用が強化

GPT-5.5は、ブラウザやアプリ、ターミナル、スプレッドシートなどを使いながら、複数のステップを進める用途でも強化されています。

これは、従来のチャット型AIよりも、エージェント型AIに近い方向の進化です。たとえば、以下のような使い方が想定されます。

  • Webで情報収集する
  • 必要なデータを整理する
  • スプレッドシートにまとめる
  • ドキュメント化する
  • 内容をチェックする
  • 修正して完成物に近づける

人間が細かく指示しなくても、AIが途中の作業をある程度判断しながら進められる点がGPT-5.5の特徴です。

④意図を汲み取る能力の向上

44職種の知識労働タスクを総合評価するGDPvalでは84.9%を記録しています。OpenAIは「ユーザーが何をしようとしているかをより速く理解する」と公式に述べており、あいまいな指示や文脈に依存した質問に対して、より意図に沿った回答を返す能力が高まっています。

引用:OpenAI

GPT-5.5の料金とアクセス方法

ChatGPT(アプリ/ブラウザ版)での利用料金

GPT-5.5の利用には、月額$20のPlusプラン以上が必要で、GPT-5.5 Proの利用には月額$200のProプラン以上が必要です。

Codexでは、GPT-5.5がPlus・Pro・Business・Enterprise・Edu・Goプラン向けに提供されており、一度に処理できるテキスト量は最大40万トークン(400K)に対応しています。API版で案内されている最大100万トークンのコンテキストウィンドウとは異なる点に注意が必要です。

プラン GPT-5.5 GPT-5.5 Thinking GPT-5.5 Pro
Free(無料) × × ×
Plus($20/月) 即日利用可 即日利用可 ×
Pro($200/月) 即日利用可 即日利用可 即日利用可
Business・Enterprise 即日利用可 即日利用可 即日利用可

参考:OpenAI

API経由での利用料金

GPT-5.4のAPI料金(入力$2.50/出力$20)と比較すると、gpt-5.5は入力で2倍・出力で1.5倍の料金になっています。一度に処理できるテキスト量(コンテキストウィンドウ)は100万トークンを維持しています。

大量のリクエストをまとめて処理するBatch・Flexプランは標準料金の半額、優先処理のPriorityプランは2.5倍の料金設定です。

注意点として、APIは2026年4月24日時点でまだ提供されていません。 OpenAIは「追加のセキュリティ対策の実装後に公開する」としており、近日中に提供予定とされています。現時点でAPIでの利用を予定している場合はGPT-5.4の継続利用が必要です。

モデル 入力(100万トークンあたり) 出力(100万トークンあたり)
GPT-5.5 $5 $30
GPT-5.5-Pro $30 $180

参考:OpenAI

 

GPT-5.5が向いているユースケース・向いていないユースケース

GPT5.5が向いているユースケース

①コーディングの自律実行

「バグを見つけて直して」「このリポジトリをリファクタリングして」「テストを書いて実行して」といった複数ステップの作業を、人間が途中で介入しなくても完結させる能力がGPT-5.5の最大の強みです。Terminal-Bench 2.0でClaude Opus 4.7(69.4%)を13ポイント以上引き離す82.7%という数字は、「AIがコーディングを自律的に完結させる」用途での差が競合モデルと一線を画すレベルに達していることを示しています。単純なコード補完ではなく、複数ファイルへのアクセス・ツールの実行・エラーの確認と修正・テストの実行を繰り返して最終成果物まで持っていく「まるごと任せる」使い方で最も価値が出ます。

②PCやアプリを操作したルーティーン業務の自動化

フォームへの入力・スプレッドシートの操作・ブラウザを使った情報収集・社内システムへのデータ登録といった定型的な事務作業を、AIが画面を見ながら自律的に操作して完結させます。OSWorld-Verified(78.7%)は実際のPCアプリを自律的に操作する能力を測るベンチマークで、これまで専用の自動化ツール(RPA)が担ってきた作業を、より自然な指示でより柔軟に実現できます。

③科学・数学的推論の支援

論文データの解析・仮説の検証・数式の導出・実験プロセスの設計補助において、競合を大きく上回るスコアを出しています。FrontierMath Tier 4(研究者レベルの難しい数学)ではClaude Opus 4.7の1.5倍・Gemini 3.1 Proの2倍という突出した差があり、高度な数学的推論を必要とする業務で最も恩恵を受けやすいモデルです。BixBench(生命科学データ解析)での80.5%も、バイオ・創薬・材料科学分野での研究支援として実用水準に達しつつあることを示しています。

④複雑な問い合わせ対応の自動化

Tau2-bench Telecom(カスタマーサービス業務の評価)で98.0%というほぼ完璧なスコアを記録しています。製品の仕様確認・契約条件の照合・手続き案内など、複数のシステムやドキュメントを参照しながら顧客の問い合わせに答える複合的な対応業務での活用が有力です。

GPT-5.5が向いていないユースケース

①日常的な文書作成・情報整理

メール返信文の作成・議事録作成・提案資料のまとめ・SNS投稿の下書きといった日常的な文書作業では、GPT-5.4でもすでに高い水準に達しています。GDPval(44職種の知識労働タスク)の改善幅はGPT-5.4比でわずか1.9ポイントにとどまっており、これらの用途でGPT-5.5に切り替えても体感差は限定的です。料金が約2倍になることを考えると、GPT-5.4(またはGPT-5.3 Instant)をそのまま使い続ける方が費用対効果は高いです。

②専門的知識をもとにした判断が必要な場面

契約書の法的リスク評価・医療診断の根拠整理・倫理的判断を要する問題解決など、ツールを使わず思考力だけで深く考えさせる場面ではClaude Opus 4.7(Humanity’s Last Exam:46.9%)がGPT-5.5 Pro(43.1%)およびGPT-5.5を上回っています。

「調べる・操作する」ではなく「深く考える」ことが主目的であれば、現時点ではClaude Opus 4.7の方が適している可能性があります

③コスト優先のバッチ処理

テキストの大量分類・要約・テンプレート埋め込みなど、シンプルな処理を大量に回す用途ではGPT-5.4比で約2倍の料金設定がそのままコスト増に直結します。GPT-5.4 mini・nanoやGPT-5.5 Batch(標準料金の半額)を使うことをおすすめします。

GPT-5.5の性能が活きるのはタスク自体が複雑な場合であり、単純なタスクを大量処理する用途ではオーバースペックになります

GPT-5.5を実際に使ってみた

Taskhubマガジン編集部でも、GPT-5.5を実際に試してみました。記事で紹介した「向いているユースケース」をプロンプトとして入力し、回答を確認します。

検証①:コーディング(バグ特定・修正・テスト作成)の自律実行

GPT-5.5の最大の強みとされる「複数ステップのコーディング作業をまるごと完結させる能力」を検証します。バグを複数仕込んだPythonコードを渡し、「①バグをすべて特定して修正→②修正箇所と理由の説明→③修正済みコードに対するユニットテストの作成」を1回のプロンプトで依頼しました。

使用プロンプト

評価のポイント:バグを何個特定できるか(正解は4つ)・修正の説明が的確か・テストの網羅性

以下のPythonコードにはバグが複数含まれています。
バグをすべて特定して修正し、修正箇所と理由を説明してください。
その後、修正済みコードに対するユニットテストを書いてください。

import json

def calculate_monthly_report(transactions):
    report = {}
    
    for t in transactions:
        month = t["date"][:6]
        category = t["categry"]  # typo
        amount = t["amount"]
        
        if month not in report:
            report[month] = {}
        
        if category not in report[month]:
            report[month][category] == 0  # bug
        
        report[month][category] =+ amount  # bug
    
    return report

data = '[{"date": "20260401", "categry": "food", "amount": 1200}, 
{"date": "20260415", "category": "transport", "amount": 400}]'
transactions = json.loads(data)
result = calculate_monthly_report(transactions)
print(result)

検証結果

バグの個数や箇所も間違えることなく、出力することができました。また、その後のフローである修正済コードのユニットテストの作成も行なっており、一連の業務を自律的に進行する上で問題ない性能であると言えます。

 

検証② 複雑な問い合わせへの対応——料金計算と規約解釈

Tau2-bench Telecom(カスタマーサービス業務)で98.0%という突出したスコアを記録したGPT-5.5の「複数の条件を照合しながら正確に答える能力」を検証します。料金プランと規約を読み込ませたうえで、計算と規約解釈の両方が必要な顧客問い合わせに答えさせました。

実際には社内資料や利用規約を読み込ませ、参照させる形を取りますが、今回はテスト的にデモの規約を作成し、覚えさせました。

使用プロンプト

評価のポイント:計算が正確か(年間差額の正解:Starter月払い96,000円→Growth月払い300,000円→年払い20%割引で240,000円、差額144,000円増)・規約の解釈に抜け漏れがないか・回答がわかりやすく整理されているか

あなたはSaaSサービスのカスタマーサポート担当です。
以下の料金プランと規約を読んだうえで、顧客からの問い合わせに正確に答えてください。

【料金プラン】
・Starter:月額8,000円 / ユーザー数上限5名 / ストレージ10GB / APIアクセス不可
・Growth:月額25,000円 / ユーザー数上限20名 / ストレージ100GB / APIアクセス可(月1,000回まで)
・Enterprise:要見積もり / ユーザー数無制限 / ストレージ無制限 / APIアクセス無制限

【規約(抜粋)】
・年払いは月払いの20%割引
・プランのダウングレードは次の更新日から適用
・ストレージ超過分は1GBあたり月額200円の追加料金
・API超過分は1回あたり5円の追加料金
・無料トライアルは14日間、クレジットカード不要

【顧客からの問い合わせ】
現在Starterプランを月払いで使っています。チームが8名に増えたので、
Growthプランに変えたいと思っています。年払いにした場合、今の月払いStarterと
比べて年間でいくら変わりますか?また、もし将来またダウングレードしたくなった
場合はどうなりますか?

検証結果

こちらも問題なく計算・回答を行うことができました。

どちらの検証においても、GPT-5.5では問題なく回答を出力することができました。一方で、検証②については、プロンプトの調整を行うことで他モデル(GPT-5.3や5.4)などでも正しく実行できる可能性は高いです。

OpenAIの公式リリース通り、単発のタスクの正確性、コンテクストを理解したタスクの進行といった箇所よりも、複雑なフローの自動化(エージェント機能)に強みがあると言えます。ユースケースとしても、一般的なタスクは通常の「Instantモード(GPT-5.3やGPT-5.4)」を使いつつ、エージェント機能を使いタスクを行いたい時のみ、スポット的にGPT-5.5を活用するという使い方がおすすめです。

まとめ

GPT-5.5は2026年4月23日にリリースされたOpenAIの最新最上位AIモデルで、AIが自律的にコーディングや実務をこなす能力とコンピュータ操作能力で競合モデルを大きく引き離しました。ChatGPT Plusプラン($20/月)以上で即日利用可能ですが、開発者向けのAPIは近日公開予定で、料金はGPT-5.4から約2倍に引き上げられています。

「複数ステップにわたる実務作業をAIに自律的にこなしてほしい」「コーディング作業の自動化性能を引き上げたい」という用途では、GPT-5.5はおすすめの選択肢です。一方でAPIでの本番利用・コストを抑えた大量処理・純粋な思考力の最大化が目的の場合は、現時点ではその他のモデルが最適である可能性も高く、「現在どんなユースケースでAIを活用しているか/したいか」を整理してから活用をしていくようにしましょう。

×