2026-04-17 10:43:33

#GatePreIPOsLaunchesWithSpaceX

Anthropic 搞来了“炮台”：Claude Opus 4.7 😈

Anthropic 刚刚推出 Claude Opus 4.7——截至目前今天最强大的公开模型。并在对比表里展示了 Claude Mythos Preview——内部的“怪兽”，由于其强大的网络能力(，暂时不给所有人开放)。

代理式编程 (对开发者来说最重要)
SWE-bench Pro (解决复杂真实的缺陷修复任务)：
Mythos Preview — 77.8% | Opus 4.7 — 64.3% | Opus 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified：Mythos — 93.9% | Opus 4.7 — 87.6% | Opus 4.6 — 80.8%

这简直是巨大的跃进。Mythos 几乎把 2024–2025 年这些模型在真实 GitHub 任务上的结果翻了一番。
Terminal-Bench 2.0 (在终端里完成工作、代理式编码)：
Mythos — 82.0% | GPT-5.4 — 75.1% | Opus 4.7 — 69.4%

多方思维与复杂任务 Humanity’s Last Exam (——最严苛的“人类最后考试”之一：多学科、研究生水平)：

Mythos — 56.8% | Opus 4.7 — 46.9% 配合工具：Mythos — 64.7% | Opus 4.7 — 54.7%
GPQA Diamond (高水平科学思维)：所有顶级模型大约都在 94%，Mythos 略占优势——94.6%。

代理能力
Scaled tool use (MCP-Atlas)：
Opus 4.7 — 77.3% (在可用模型中排名第一)
Agentic computer use (OSWorld-Verified)：Opus 4.7 — 78.0% | Mythos — 79.6%
Agentic search (BrowseComp)：GPT-5.4 以 89.3% 领先，Mythos — 86.9%
Cybersecurity vulnerability reproduction (CyberGym)：Mythos — 83.1% (在这里尤其危险而且强)

可视化推理与多模态 CharXiv Reasoning：Opus 4.7 不用工具 — 82.1% | 用工具 — 91.0% Mythos — 93.2% 用工具。
多语言问答 (MMMLU)：Opus 4.7 和 4.6 — 约 91%，Gemini 3.1 Pro — 92.6%。

Opus 4.7 就是目前大多数任务的最佳选择：
几乎在所有方面都显著强于 Opus 4.6 (，尤其是在代理式编码、计算机使用、视觉推理和金融分析方面)。
价格相同：$5 / $25 每百万 token。
可通过 Claude、API、Bedrock、Vertex AI 等向所有人开放。
高质量图片处理能力已增强 (最高到 3.75 MP)，新增新的“extra high（超高）”effort level，以及 Claude Code 里的 ultra review 等。

Mythos Preview 简直是什么怪物——就是下一层级。它在几乎所有代理类和复杂基准测试中都占据统治地位。Anthropic 把它限制在有限的访问范围内 (Project Glasswing)，因为这款模型在代码漏洞的搜索和复现方面尤其强。可以说，它本质上是“前沿级”的网络武器，目前正通过加强版 safeguard 在测试中。Anthropic 直说：Opus 4.7 在几乎所有维度都比不过 Mythos，但更安全，而且已经可以用于生产环境。

2026 年——已经不只是“聊天机器人”了。我们看到真正的代理：它们可以在终端里连续工作好几个小时，修复真实代码，分析金融，并解决 PhD 级别的任务。
Opus 4.7 已经可以在复杂工作流里部署到生产环境。而 Mythos 则是在暗示：未来几个月行业会朝哪里发展。

也许，这就是未来的样子了？
你怎么看？ 🤝

查看原文