這是在代理性能方面的一個可衡量的進步。
在 SWE-bench 上達到 64.3%，高於 53.4%
在經過驗證的代理編碼方面達到 87.6%
在擴展工具使用方面達到 77.3%
在現實世界的電腦任務方面達到 78.0%
它還改善了模型通常會退化的領域：
代理搜索達到 79.3%
金融分析達到 64.4%
多語言問答達到 91.5%
而且關鍵的是，長上下文推理依然穩固：
使用工具的視覺推理超過 90%
在研究生水平的基準測試中達到 94.2%
這裡是重點：
這不是關於巔峰分數。
而是關於跨領域的一致性。
Opus 4.7 並未在每個類別中都佔據主導。
但它在所有領域都能可靠地表現。
這才是生產系統所需要的。
前沿不再僅僅是智慧。
而是能在實際工作負載下保持穩定。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人按讚了這條動態

打賞
1
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
GatePreIPOs首發SpaceX
16.09萬熱度
#
Gate13週年現場直擊
43.34萬熱度
#
美伊局勢和談與增兵博弈
77.89萬熱度
#
加密市場回升
9.9萬熱度
#
WCTC交易賽瓜分800萬USDT
62.84萬熱度

🚨 ANTHROPIC 設定了新的基準，配備 CLAUDE OPUS 4.7

熱門話題

GatePreIPOs首發SpaceX

Gate13週年現場直擊

美伊局勢和談與增兵博弈

加密市場回升

WCTC交易賽瓜分800萬USDT

置頂