#GatePreIPOsLaunchesWithSpaceX


Anthropic 搞来了“炮台”:Claude Opus 4.7 😈

Anthropic 刚刚推出 Claude Opus 4.7——截至目前今天最强大的公开模型。并在对比表里展示了 Claude Mythos Preview——内部的“怪兽”,由于其强大的网络能力(,暂时不给所有人开放)。

代理式编程 (对开发者来说最重要)
SWE-bench Pro (解决复杂真实的缺陷修复任务):
Mythos Preview — 77.8% | Opus 4.7 — 64.3% | Opus 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified:Mythos — 93.9% | Opus 4.7 — 87.6% | Opus 4.6 — 80.8%

这简直是巨大的跃进。Mythos 几乎把 2024–2025 年这些模型在真实 GitHub 任务上的结果翻了一番。
Terminal-Bench 2.0 (在终端里完成工作、代理式编码):
Mythos — 82.0% | GPT-5.4 — 75.1% | Opus 4.7 — 69.4%

多方思维与复杂任务 Humanity’s Last Exam (——最严苛的“人类最后考试”之一:多学科、研究生水平):

Mythos — 56.8% | Opus 4.7 — 46.9% 配合工具:Mythos — 64.7% | Opus 4.7 — 54.7%
GPQA Diamond (高水平科学思维):所有顶级模型大约都在 94%,Mythos 略占优势——94.6%。

代理能力
Scaled tool use (MCP-Atlas):
Opus 4.7 — 77.3% (在可用模型中排名第一)
Agentic computer use (OSWorld-Verified):Opus 4.7 — 78.0% | Mythos — 79.6%
Agentic search (BrowseComp):GPT-5.4 以 89.3% 领先,Mythos — 86.9%
Cybersecurity vulnerability reproduction (CyberGym):Mythos — 83.1% (在这里尤其危险而且强)

可视化推理与多模态 CharXiv Reasoning:Opus 4.7 不用工具 — 82.1% | 用工具 — 91.0% Mythos — 93.2% 用工具。
多语言问答 (MMMLU):Opus 4.7 和 4.6 — 约 91%,Gemini 3.1 Pro — 92.6%。

Opus 4.7 就是目前大多数任务的最佳选择:
几乎在所有方面都显著强于 Opus 4.6 (,尤其是在代理式编码、计算机使用、视觉推理和金融分析方面)。
价格相同:$5 / $25 每百万 token。
可通过 Claude、API、Bedrock、Vertex AI 等向所有人开放。
高质量图片处理能力已增强 (最高到 3.75 MP),新增新的“extra high(超高)”effort level,以及 Claude Code 里的 ultra review 等。

Mythos Preview 简直是什么怪物——就是下一层级。它在几乎所有代理类和复杂基准测试中都占据统治地位。Anthropic 把它限制在有限的访问范围内 (Project Glasswing),因为这款模型在代码漏洞的搜索和复现方面尤其强。可以说,它本质上是“前沿级”的网络武器,目前正通过加强版 safeguard 在测试中。Anthropic 直说:Opus 4.7 在几乎所有维度都比不过 Mythos,但更安全,而且已经可以用于生产环境。

2026 年——已经不只是“聊天机器人”了。我们看到真正的代理:它们可以在终端里连续工作好几个小时,修复真实代码,分析金融,并解决 PhD 级别的任务。
Opus 4.7 已经可以在复杂工作流里部署到生产环境。而 Mythos 则是在暗示:未来几个月行业会朝哪里发展。

也许,这就是未来的样子了?
你怎么看? 🤝
查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论