2026年5月28日、Anthropicが新しいAIモデル「Claude Opus 4.8」をリリースしました。
前モデル「Opus 4.7」からの正統進化版で、料金は据え置きのまま、コーディングやエージェント性能、そして「誠実さ」が強化されたモデルです。
この記事では、Opus 4.8で何が変わったのか、性能の向上点や同時に登場した新機能、世間の評価や報告されている不具合まで、できるだけわかりやすく整理して解説します。
なお、本記事はAnthropicの公式発表や各種ベンチマーク資料をもとに執筆していますが、AIモデルの仕様や評価は更新が早い分野です。
この記事でわかること
- Claude Opus 4.8の基本情報(リリース日・位置づけ・料金)
- 前モデルOpus 4.7からの主な進化点
- ベンチマークで見る性能の向上度合い
- 同時に登場した新機能の概要
- 現時点での世間の評価と、報告されている不具合
Claude Opus 4.8とは?まずは基本情報を整理
Claude Opus 4.8は、AnthropicのAIモデル群のうち、最も高性能な「Opus」クラスの最新版です。
前モデルであるOpus 4.7をベースに改良されており、Anthropic自身はこのアップデートを「控えめながら確かな改善(a modest but tangible improvement)」と表現しています。
劇的な世代交代というより、実務での使い勝手を磨き込んだバージョンアップという位置づけです。
まずは基本スペックを表で確認しておきましょう。
| 項目 | 内容 |
|---|---|
| モデル名 | Claude Opus 4.8(APIモデルID:claude-opus-4-8) |
| リリース日 | 2026年5月28日(米国時間) |
| 位置づけ | Opus 4.7の後継となる最上位クラスモデル |
| 料金(通常) | 入力:100万トークンあたり5ドル/出力:100万トークンあたり25ドル(Opus 4.7から据え置き) |
| 料金(Fastモード) | 入力:100万トークンあたり10ドル/出力:100万トークンあたり50ドル |
| コンテキスト | 最大100万トークン(Claude APIなど。一部環境では20万トークン) |
大きなポイントは、通常利用の料金がOpus 4.7から変わっていないことです。
価格を上げずに性能を底上げした、という点がこのリリースの特徴のひとつです。
Opus 4.7から何が変わった?主な進化点
Anthropicが挙げている主な改善領域は、大きく分けて次の3つです。
1. 長時間のコーディング・エージェント作業に強くなった
長い文脈を扱う能力が向上し、作業の途中で情報を圧縮(コンパクション)する回数が減ったほか、圧縮後の作業継続もスムーズになったとされています。これにより、数十万行規模のコードベースの大規模な移行作業のような、長時間にわたるタスクを最後までやり切りやすくなったと説明されています。
2. ツールの呼び出し精度が改善
タスクに必要なツールの呼び出しをスキップしてしまうケースが減ったとされています。
これはOpus 4.7で一部のユーザーから指摘されていた挙動で、より少ないステップで同じ結果にたどり着けるよう改善が図られています。
3. 「努力量(effort)」の調整がより安定
どれだけ深く考えて回答するかという「努力量」のレベルごとの挙動が、より信頼できるものになったとされています。Opus 4.8はデフォルトで「high(高)」に設定されており、難しいタスクではさらに上のレベルを選ぶこともできます。
ベンチマークで見る性能の向上
Anthropicが公開したシステムカード(性能評価資料)の数値を見ると、多くの項目でOpus 4.7を上回っています。代表的なベンチマークの結果を整理すると、次のようになります。なお、これらの数値はAnthropicのシステムカード(Table 8.1.A)に基づくものです。
| ベンチマーク(測定内容) | Opus 4.8 | Opus 4.7 |
|---|---|---|
| SWE-Bench Pro(難度の高いコーディング、正答率) | 69.2% | 64.3% |
| SWE-Bench Verified(コーディング、正答率) | 88.6% | 87.6% |
| Humanity’s Last Exam(高難度の推論、ツール利用あり) | 57.9% | 54.7% |
| OSWorld-Verified(PC操作タスク) | 83.4% | 82.8% |
| GDPval-AA(専門的な知的労働、2000点満点) | 1,890 | 1,753 |
特にコーディング系の難しいベンチマークほど、Opus 4.7との差が大きく出ているのが特徴です。一方で、すべての項目で必ずしもトップというわけではありません。たとえばGPQA Diamond(高難度の科学知識)ではOpus 4.8(93.6)がOpus 4.7(94.2)をわずかに下回っており、この領域は各モデルがほぼ横並びの状態です。
また、金融エージェント向けの一部ベンチマークでは、より小型のモデルが上位に来るケースも報告されています。ベンチマークは万能ではなく、用途によって得意・不得意が分かれる点は押さえておきたいところです。
注目ポイントは「誠実さ(honesty)」の改善
今回のリリースで、Anthropicが特に強調しているのが「誠実さ」の向上です。
AIモデルには、根拠が薄いのに「うまくいった」と自信たっぷりに結論を出してしまう傾向がありますが、Opus 4.8はこうした挙動が抑えられているとされています。
具体的には、自分が書いたコードの欠陥を見逃したまま放置してしまう確率が、前モデルと比べて約4分の1に減ったとAnthropicは報告しています。作業の不確かな部分を自分から申告し、根拠のない主張をしにくくなった、という改善です。日々の開発で「できたと言われたのに実は動かない」というありがちな失敗を減らす方向の進化であり、ベンチマークの数値以上に体感に効く部分かもしれません。
「できました(できてない)」が減ったって感じだね
同時に登場した新機能
Opus 4.8のリリースに合わせて、いくつかの新機能も発表されました。主なものを紹介します。
努力量(effort)コントロール
claude.aiやCoworkで、Claudeがどれだけ「努力」して回答するかをユーザーが選べるようになりました。高い設定にすると、より深く考えて回答の質を高め、低い設定にするとより速く回答し、利用上限の消費もゆるやかになります。この機能はすべてのプランで利用できます。
Dynamic workflows(ダイナミックワークフロー)
Claude Code向けのリサーチプレビュー機能です。
Claudeが作業を計画し、1つのセッション内で数百のサブエージェントを並列で動かして、大規模なタスクに取り組めるようになります。出力を自分で検証してから報告する仕組みで、Enterprise・Team・Maxの各プランで利用できます。
Proプランワイ、泣く。
まあたぶん使えたところでトークン消費量はんぱなくてすぐ止まっちゃうだろうな。
Fast(高速)モードが大幅に安価に
Claude APIのリサーチプレビューとして、モデルを最大2.5倍の速度で動かせるFastモードが提供されています。Opus 4.8では、このFastモードの料金が従来のOpusモデルの約3分の1になりました。
会話途中でのシステム指示の更新(API向け)
開発者向けの変更として、Messages APIで会話の途中にシステム指示を追加できるようになりました。プロンプトキャッシュを壊さずに、作業中の権限やトークン予算、環境情報などを更新できる仕組みです。
現時点での世間の評価と、報告されている不具合
リリース直後の評価は、率直に言って賛否が分かれています。
「以前より賢く、思考が丁寧になった」「コラボレーションしやすい」と高く評価する声がある一方で、リリース直後には不安定さを指摘する声も少なくありませんでした。
特にコミュニティで多く報告されていたのは、開発ツール「Claude Code」上でのツール呼び出しの不具合です。
ツールの呼び出しがうまく成立せず、同じコマンドを延々と繰り返す「無限ループ」のような挙動に陥ったり、不要なファイルを大量に生成したりするケースが報告されました。
これに対しては、Claude Codeのバージョンを一時的に以前のものに戻す、という回避策を取るユーザーも見られました。
そのほかに報告された主な内容は、次のようなものです。
- 英語以外の言語(ドイツ語やラテン語など)で、文法や単語がおかしくなるケースがある
- 回答までに時間がかかったり、思考の途中で止まってしまったりする
- トークンの消費が想定より多く、利用上限の消費が速いと感じる
もっとも、これらは「新モデルのリリース直後にはよくあること」と冷静に受け止める声もあります。
実際に「使い込むと印象が変わった」「自分の環境では問題なく快適」という反応もあり、体感は利用環境やタスク、使い方によってかなり差があるのが実情です。なお、Anthropic自身もシステムカードの中で、Opus 4.8が完璧ではないことに触れています。
こうした不具合や評価は、今後のアップデートやツール側の修正によって改善していく可能性が高いものです。
ここで紹介した状況はあくまで執筆時点のものなので、導入を検討する際は、最新の状況をご自身で必ずチェックしてください。
まとめ
Claude Opus 4.8は、前モデルOpus 4.7からの正統進化版として、料金据え置きのままコーディング・エージェント性能を底上げし、「誠実さ」という新しい軸での改善を打ち出したモデルです。多くのベンチマークで前モデルを上回る一方、すべての領域でトップというわけではなく、リリース直後には不具合や評価の分かれる場面もありました。
劇的な大変身ではなく、実務で「任せられるか」を磨いたアップデートだと捉えると、その立ち位置が見えてきます。AIモデルは更新の早い分野なので、最新の仕様や評価、不具合の修正状況については、ぜひ公式情報をあわせて確認してみてください。
以下、ありそうな質問をFAQ形式でまとめておきます。よければご参考に。
- Claude Opus 4.8はいつリリースされましたか?
-
2026年5月28日(米国時間)にリリースされました。前モデルのOpus 4.7をベースにした後継モデルです。
- Opus 4.7と比べて料金は上がりましたか?
-
通常利用の料金はOpus 4.7から据え置きで、入力が100万トークンあたり5ドル、出力が100万トークンあたり25ドルです。価格を変えずに性能を向上させている点が特徴です。
- Opus 4.8の一番の特徴は何ですか?
-
コーディングやエージェント性能の向上に加えて、「誠実さ」が強化された点です。自分が書いたコードの欠陥を見逃す確率が、前モデルと比べて約4分の1に減ったとAnthropicは報告しています。
- Opus 4.8で追加された新機能はありますか?
-
努力量(effort)コントロール、Claude Code向けのDynamic workflows、約3分の1の料金になったFastモード、APIの会話途中でのシステム指示更新などが同時に登場しました。
- 不具合があると聞きましたが、使わないほうがいいですか?
-
リリース直後にはツール呼び出しの不具合などが報告されましたが、評価は人や環境によって分かれています。こうした問題は今後の修正で改善する可能性が高いため、利用前に最新の状況を公式情報で確認することをおすすめします。
- すべてのベンチマークでトップなのですか?
-
多くの項目で前モデルを上回っていますが、すべてでトップというわけではありません。科学知識を測る一部のベンチマークでは各モデルがほぼ横並びで、金融分野では小型モデルが上位に来るケースも報告されています。
参考リンク