#GatePreIPOsLaunchesWithSpaceX


Anthropic lançou a sua nova arma: Claude Opus 4.7 😈

A Anthropic acabou de lançar o Claude Opus 4.7 — o seu modelo mais potente de acesso público até hoje. E na tabela de comparação mostraram também o Claude Mythos Preview — um “monstro” interno, que ainda não é disponibilizado a todos (devido às suas poderosas capacidades cibernéticas).

Programação orientada a agentes (é o mais importante para os desenvolvedores)
SWE-bench Pro (tarefas complexas reais de correção de bugs):
Mythos Preview — 77,8% | Opus 4.7 — 64,3% | Opus 4.6 — 53,4% | GPT-5.4 — 57,7%
SWE-bench Verified: Mythos — 93,9% | Opus 4.7 — 87,6% | Opus 4.6 — 80,8%

Isto é um grande avanço. Mythos quase duplica os resultados dos modelos de 2024–2025 em tarefas reais no GitHub.
Terminal-Bench 2.0 (trabalho no terminal, codificação orientada a agentes):
Mythos — 82,0% | GPT-5.4 — 75,1% | Opus 4.7 — 69,4%

Pensamento multidisciplinar e tarefas complexas Humanity’s Last Exam (um dos exames “finais” mais difíceis da humanidade, multidisciplinar, nível de pós-graduação):

Mythos — 56,8% | Opus 4.7 — 46,9% Com ferramentas: Mythos — 64,7% | Opus 4.7 — 54,7%
GPQA Diamond (alto nível de raciocínio científico): Todas as principais modelos cerca de 94%, Mythos um pouco à frente — 94,6%.

Capacidades orientadas a agentes
Uso de ferramentas escalado (MCP-Atlas):
Opus 4.7 — 77,3% (líder entre os disponíveis)
Uso de computador orientado a agentes (OSWorld-Verified): Opus 4.7 — 78,0% | Mythos — 79,6%
Busca orientada a agentes (BrowseComp): GPT-5.4 lidera com 89,3%, Mythos — 86,9%
Reprodução de vulnerabilidades de cibersegurança (CyberGym): Mythos — 83,1% (aqui é especialmente forte)

Pensamento visual e multimodalidade CharXiv Reasoning: Opus 4.7 sem ferramentas — 82,1% | com ferramentas — 91,0% Mythos — 93,2% com ferramentas.
Perguntas e respostas multilíngues (MMMLU): Opus 4.7 e 4.6 — cerca de 91%, Gemini 3.1 Pro — 92,6%.

Opus 4.7 é a melhor escolha neste momento para a maioria das tarefas:
Muito melhor que Opus 4.6 em quase tudo (especialmente na codificação orientada a agentes, uso de computador, raciocínio visual e análise financeira).
Preço igual: $5 / $25 por milhão de tokens.
Disponível para todos através de Claude, API, Bedrock, Vertex AI, etc.
Melhorias no trabalho com imagens de alta qualidade (até 3,75 MP), novo nível de esforço “extra high”, revisão ultra no Claude Code, etc.

Mythos Preview é realmente algo de outro mundo — é o próximo nível. Domina quase todos os benchmarks de agentes e tarefas complexas. A Anthropic mantém-no com acesso restrito (Project Glasswing), porque o modelo é especialmente forte na busca e reprodução de vulnerabilidades no código. Basicamente — é uma “arma cibernética” de nível frontier, que ainda está sendo testada com salvaguardas reforçadas. A Anthropic afirma diretamente: Opus 4.7 fica atrás do Mythos em quase todos os aspectos, mas é mais seguro e já disponível para produção.

2026 já não será apenas “chatbots”. Vemos agentes reais, capazes de trabalhar horas no terminal, corrigir código real, analisar finanças e resolver tarefas de nível PhD.
O Opus 4.7 já pode ser usado em produção para fluxos de trabalho complexos. O Mythos indica para onde a indústria se dirige nos próximos meses.

Será que este já é o futuro?
como acha? 🤝
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar