アンスロピックが新たに登場：クローズ・オーパス 4.7 😈

アンスロピックはついにクローズ・オーパス 4.7をリリース—今日の最も強力な一般公開モデルです。そして比較表には、クローズ・ミトスプレビューも示されており、これは内部の「モンスター」であり、強力なサイバー能力のためにまだ誰にでも公開されていません(。

エージェントプログラミング)は開発者にとって最も重要(
SWE-bench Pro)は複雑な実務的バグ修正タスク(：
ミトスプレビュー — 77.8% | オーパス 4.7 — 64.3% | オーパス 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified：ミトス — 93.9% | オーパス 4.7 — 87.6% | オーパス 4.6 — 80.8%

これは大きな飛躍です。ミトスは2024–2025年のモデルの実際のGitHubタスクでの結果をほぼ倍増させています。
Terminal-Bench 2.0)は端末作業とエージェントコーディング(：
ミトス — 82.0% | GPT-5.4 — 75.1% | オーパス 4.7 — 69.4%

多角的思考と複雑な課題 Humanity’s Last Exam)は、最も厳しい「人類最後の試験」の一つであり、多分野横断的、大学院レベル(：

ミトス — 56.8% | オーパス 4.7 — 46.9% ツール付き：ミトス — 64.7% | オーパス 4.7 — 54.7%
GPQAダイヤモンド)高い科学的思考レベル(: 全トップモデルは約94%、ミトスはわずかにリードして94.6%。

エージェント機能
スケールされたツール使用)MCP-Atlas(：
オーパス 4.7 — 77.3%)利用可能なリーダー(
エージェントコンピュータ使用)OSWorld-Verified(：オーパス 4.7 — 78.0% | ミトス — 79.6%
エージェントサーチ)BrowseComp(：GPT-5.4が89.3%でリード、ミトスは86.9%
サイバーセキュリティ脆弱性再現)CyberGym(：ミトス — 83.1%)ここで特に危険なほど強力(

ビジュアル思考とマルチモーダル性 CharXiv Reasoning：オーパス 4.7（ツールなし）— 82.1% | ツールあり— 91.0% ミトス— 93.2%（ツールあり）
多言語Q&A)MMMLU(：オーパス 4.7と4.6は約91%、ジェミニ 3.1プロ— 92.6%。

オーパス 4.7は、今最も多くのタスクに最適な選択です：
ほぼすべての面でオーパス 4.6を大きく上回る)特にエージェントコーディング、コンピュータ利用、ビジュアルリasoning、金融分析(。
価格は同じ：)/ $5 百万トークンあたり。
Claude、API、Bedrock、Vertex AIなどを通じて誰でも利用可能。
高品質画像の処理も改善$25 最大3.75 MP(、新たな「エクストラハイ」努力レベル、Claude Codeの超レビューなど。

ミトスプレビューはまさに次元の違う存在—次のレベルです。ほぼすべてのエージェントと複雑なベンチマークで支配しています。アンスロピックは限定アクセス)Project Glasswing(に留めており、これはモデルがコードの脆弱性の検索と再現に特に強いためです。実質的には、「フロンティアレベル」のサイバー兵器であり、現在は強化されたセーフガードとともにテスト中です。アンスロピックは明言しています：オーパス 4.7はほぼすべての軸でミトスに劣るが、安全性が高く、すでにプロダクションで利用可能です。

2026年はもはや「チャットボット」だけではありません。私たちは、端末で何時間も働き、実際のコードを修正し、金融を分析し、PhDレベルの課題を解決できる本物のエージェントを目にしています。
オーパス 4.7は複雑なワークフローに既に導入可能です。ミトスは、今後数ヶ月で業界がどの方向に進むかを示唆しています。

もしかして、これがすでに未来ですか？
あなたはどう思いますか？🤝

原文表示