#GatePreIPOsLaunchesWithSpaceX


アンスロピックが新たに登場:クローズ・オーパス 4.7 😈

アンスロピックはついにクローズ・オーパス 4.7をリリース—今日の最も強力な一般公開モデルです。そして比較表には、クローズ・ミトスプレビューも示されており、これは内部の「モンスター」であり、強力なサイバー能力のためにまだ誰にでも公開されていません(。

エージェントプログラミング)は開発者にとって最も重要(
SWE-bench Pro)は複雑な実務的バグ修正タスク(:
ミトスプレビュー — 77.8% | オーパス 4.7 — 64.3% | オーパス 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified:ミトス — 93.9% | オーパス 4.7 — 87.6% | オーパス 4.6 — 80.8%

これは大きな飛躍です。ミトスは2024–2025年のモデルの実際のGitHubタスクでの結果をほぼ倍増させています。
Terminal-Bench 2.0)は端末作業とエージェントコーディング(:
ミトス — 82.0% | GPT-5.4 — 75.1% | オーパス 4.7 — 69.4%

多角的思考と複雑な課題 Humanity’s Last Exam)は、最も厳しい「人類最後の試験」の一つであり、多分野横断的、大学院レベル(:

ミトス — 56.8% | オーパス 4.7 — 46.9% ツール付き:ミトス — 64.7% | オーパス 4.7 — 54.7%
GPQAダイヤモンド)高い科学的思考レベル(: 全トップモデルは約94%、ミトスはわずかにリードして94.6%。

エージェント機能
スケールされたツール使用)MCP-Atlas(:
オーパス 4.7 — 77.3%)利用可能なリーダー(
エージェントコンピュータ使用)OSWorld-Verified(:オーパス 4.7 — 78.0% | ミトス — 79.6%
エージェントサーチ)BrowseComp(:GPT-5.4が89.3%でリード、ミトスは86.9%
サイバーセキュリティ脆弱性再現)CyberGym(:ミトス — 83.1%)ここで特に危険なほど強力(

ビジュアル思考とマルチモーダル性 CharXiv Reasoning:オーパス 4.7(ツールなし)— 82.1% | ツールあり— 91.0% ミトス— 93.2%(ツールあり)
多言語Q&A)MMMLU(:オーパス 4.7と4.6は約91%、ジェミニ 3.1プロ— 92.6%。

オーパス 4.7は、今最も多くのタスクに最適な選択です:
ほぼすべての面でオーパス 4.6を大きく上回る)特にエージェントコーディング、コンピュータ利用、ビジュアルリasoning、金融分析(。
価格は同じ:)/ $5 百万トークンあたり。
Claude、API、Bedrock、Vertex AIなどを通じて誰でも利用可能。
高品質画像の処理も改善$25 最大3.75 MP(、新たな「エクストラハイ」努力レベル、Claude Codeの超レビューなど。

ミトスプレビューはまさに次元の違う存在—次のレベルです。ほぼすべてのエージェントと複雑なベンチマークで支配しています。アンスロピックは限定アクセス)Project Glasswing(に留めており、これはモデルがコードの脆弱性の検索と再現に特に強いためです。実質的には、「フロンティアレベル」のサイバー兵器であり、現在は強化されたセーフガードとともにテスト中です。アンスロピックは明言しています:オーパス 4.7はほぼすべての軸でミトスに劣るが、安全性が高く、すでにプロダクションで利用可能です。

2026年はもはや「チャットボット」だけではありません。私たちは、端末で何時間も働き、実際のコードを修正し、金融を分析し、PhDレベルの課題を解決できる本物のエージェントを目にしています。
オーパス 4.7は複雑なワークフローに既に導入可能です。ミトスは、今後数ヶ月で業界がどの方向に進むかを示唆しています。

もしかして、これがすでに未来ですか?
あなたはどう思いますか?🤝
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン