🚨 ANTHROPIC 設定了新的基準,配備 CLAUDE OPUS 4.7


這是在代理性能方面的一個可衡量的進步。
在 SWE-bench 上達到 64.3%,高於 53.4%
在經過驗證的代理編碼方面達到 87.6%
在擴展工具使用方面達到 77.3%
在現實世界的電腦任務方面達到 78.0%
它還改善了模型通常會退化的領域:
代理搜索達到 79.3%
金融分析達到 64.4%
多語言問答達到 91.5%
而且關鍵的是,長上下文推理依然穩固:
使用工具的視覺推理超過 90%
在研究生水平的基準測試中達到 94.2%
這裡是重點:
這不是關於巔峰分數。
而是關於跨領域的一致性。
Opus 4.7 並未在每個類別中都佔據主導。
但它在所有領域都能可靠地表現。
這才是生產系統所需要的。
前沿不再僅僅是智慧。
而是能在實際工作負載下保持穩定。
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言