AnthropicのAIモデル「Claude Mythos」は、一般公開するには強力すぎると同社が主張しているが、すでに新たな能力を獲得しているようだ。

 英国人工知能セキュリティ研究所(AISI)は米国時間5月13日、Mythosの最新バージョンをテストした結果をブログで報告した。それによると、同モデルは2026年4月の初期リリース時の成績だけでなく、OpenAIの「GPT-5.5」をも上回るパフォーマンスを示したという。

 ブログの執筆者らは、最新のMythos Previewの最新のチェックポイントが2つのサイバー演習を完遂したと報告している。具体的には、演習「The Last Ones」を10回中6回、これまで未解決だった「Cooling Tower」を10回中3回成功させた。同モデルがこれら2つのうち後者の演習も完遂したのは初になるという。

 Anthropicが4月に「Mythos Preview」と「Project Glasswing」を発表した際、AISIは同モデルを評価した。Project Glasswingは、競合するテック企業やAI研究所と結成したサイバーセキュリティテスト同盟であり、Mythosへの限定的なアクセス権が付与されている。当時のAISIは、サイバー性能が急速に向上している現状において、同モデルが従来のフロンティアモデルをさらに一歩上回る存在であると指摘していた。

 こうした第三者の視点は、Mythosを巡る熱狂が単なるマーケティングに過ぎないという見方と、AI能力の破滅的な変化を予兆しているという極端な意見のバランスを取るのに役立った。同モデルが実際に何を実現できるのかという真実は、おそらくその中間にあるだろう。

 また、AISIによる最新のテスト結果は、能力の向上は個別のモデルリリース時に限定されるものではなく、単一モデルのバージョン内でも起こり得ることを示している。

急拡大するサイバー脅威

 AISIは、AIモデルがサイバー関連のタスクを処理する能力を急速に高めており、特にMythosがソフトウェアの脆弱(ぜいじゃく)性を検出する能力に長けていることは、サイバーセキュリティに重大な影響を及ぼすと警告した。

 ブログの執筆者らによると、2026年2月の内部推計では、AIモデルが完了できるサイバータスクの長さは2024年末以降、4.7カ月ごとに倍増している。これは2025年11月時点の推計である8カ月というペースから加速していることを意味する。さらに、今回報告されたClaude Mythos PreviewとGPT-5.5の2つの新モデルは、この倍増ペースの傾向を大幅に上回ったという。

 この傾向が今後も続くのか、あるいは今回の知見が永続的な能力向上を示すものなのかは不明だという。MythosとGPT-5.5は、モデル進化の全体的なパターンから一時的に大きく逸脱した例である可能性も否定できない。

 また、AISIは今回のテストで考慮できていない未知の要素が複数あることも明らかにしている。テストではタスクの上限を250万トークンに制限しており、これにより研究者はパフォーマンスの結果を長期的に比較しやすくなっている。しかし、この制限はフロンティアモデルが本来備えている能力を過小評価することにつながると執筆陣は指摘している。

 Mythos PreviewとGPT-5.5は、250万トークンという制限下であっても、限定的なサイバーテストスイートにおける最長のタスクで100%近い成功率を記録した。そのため、上限におけるエラーバー(誤差範囲)が大きくなっているとのこと。また、現在のテストタスクでは、さらに長いタスクを与えた場合に、モデルの信頼性がどの程度急激に低下するかを判断するのに十分な長さではないとも述べている。これは、最新モデルの一部が、現在の限定的なテストスイートで測定できる限界に達していることを意味する。

 この状況は、モデルが失敗するポイントの測定を困難にする一方で、トークンの制限がなければ、これらのタスクにおけるモデルの成功率はさらに高くなることを示唆している。実質的に、予測期間の算出が不可能になるほど高い成功率となる可能性がある。より多くのトークンへのアクセスと複雑なエージェント基盤を備えたモデルであれば、その能力ははるかに高まるはずだ。

 AISIは、250万トークンの制限が比較的低い設定であると付け加えた。同機関がサイバー演習で使用している最大1億トークンの環境では、最近のモデル、特に高いトークン制限から大きな恩恵を受けるモデルにおいて、パフォーマンスがさらに向上する可能性が高いとしている。

提供:Eugene Mymrin/ Moment via Getty Images
提供:Eugene Mymrin/ Moment via Getty Images

この記事は海外Ziff Davis発の記事を4Xが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

Share.