Alguém criou um 'Mitologia Teórica' de código aberto para Engenharia Reversa da IA mais Perigosa da Anthropic

Resumidamente

  • OpenMythos é uma reconstrução do zero da arquitetura Claude Mythos, construída apenas a partir de artigos de pesquisa públicos e suposições fundamentadas.
  • Claude Mythos é o modelo mais poderoso da Anthropic, mantido em Project Glasswing porque encontrou autonomamente 271 vulnerabilidades no Firefox e ataques de rede de 32 etapas.
  • O repositório é uma estrutura teórica—código sem pesos treinados. Ele espelha um esforço separado da Vidoc Security que reproduziu as descobertas de vulnerabilidade do Mythos usando modelos de prateleira.

Se a Anthropic não mostrar o que há dentro de sua IA mais perigosa, alguém no GitHub vai tentar adivinhar. Um desenvolvedor chamado Kye Gomez publicou o OpenMythos, uma reconstrução de código aberto do que ele acha que o Claude Mythos parece por dentro. O repositório conquistou mais de 10.000 estrelas no GitHub em poucas semanas após o lançamento, e vem acompanhado de um arquivo “readme” exaustivo cheio de equações, citações e uma advertência educada de que não tem relação com a Anthropic. É especulação. Mas é especulação estruturada, em código. Aqui vai uma rápida atualização sobre o que é o Mythos: Mythos vazou para o público no final de março, quando a Anthropic publicou acidentalmente materiais preliminares descrevendo-o como o modelo mais capaz da empresa até então—um nível acima do Opus. A continuação, Mythos Preview, revelou-se extremamente bom em cibersegurança.

 Segundo a Anthropic, Mythos encontrou 271 vulnerabilidades no Firefox durante testes da Mozilla. Tornou-se o primeiro modelo de IA a completar uma simulação de ataque de rede corporativa de 32 etapas. A Anthropic o manteve dentro do Project Glasswing, uma coalizão avaliada com cerca de 40 parceiros, incluindo Microsoft, Apple, Amazon e NSA. O público nunca consegue acessá-lo. Então Gomez tentou entender como ele funciona. A hipótese central do OpenMythos é que Mythos é um Transformador de Profundidade Recorrente—também chamado de transformador em loop. Modelos padrão empilham centenas de camadas únicas. Modelos em loop pegam uma pilha menor e a executam várias vezes por passagem direta.

Em outras palavras, são os mesmos pesos passando por mais iterações. Pensamento mais profundo, em espaço latente contínuo, antes que qualquer token seja emitido. O repositório argumenta que isso explicaria duas qualidades mais estranhas do Mythos: ele raciocina sobre problemas novos que nenhum outro modelo consegue resolver, mas sua memorização bruta é desigual. Essa é a assinatura arquitetônica do looping—composição ao invés de armazenamento. OpenMythos cita Parcae, um artigo de abril de 2026 da Universidade da Califórnia em San Diego e da Together AI, que resolveu o problema de instabilidade de modelos em loop há muito tempo—um modelo Parcae de 770 milhões de parâmetros iguala a um transformador de profundidade fixa de 1,3 bilhões em qualidade, com leis de escalabilidade previsíveis para o número de loops a serem executados. O repositório também usa Multi-Latent Attention do DeepSeek para comprimir memória, e uma configuração de Mistura de Especialistas para lidar com amplitude em diferentes domínios. O que ele não possui são pesos, então, basicamente, é uma técnica sem um executor. OpenMythos é teórico. O código define variantes do modelo de 1 bilhão a 1 trilhão de parâmetros, mas você precisa treiná-los sozinho—o arquivo readme aponta para um script de treinamento de 3 bilhões de parâmetros no FineWeb-Edu e um alvo ajustado de 30 bilhões de tokens do Chinchilla, que é o tipo de conta de computação que chega a centenas de milhares de dólares em H100s. Ninguém fez isso ainda. Então, por que isso importa? Porque é a segunda vez em um mês que alguém tenta furar a barreira ao redor do Mythos. A primeira foi um estudo da Vidoc Security, que reproduziu várias das descobertas de vulnerabilidades mais alarmantes do Mythos usando GPT-5.4 e Claude Opus 4.6 dentro de um agente de código aberto. Sem acesso ao Glasswing, e por menos de 30 dólares por varredura. Ângulo diferente, mesma conclusão: a proteção ao redor do Mythos pode ser mais fina do que o marketing sugeria. OpenMythos e a replicação da Vidoc estão fazendo trabalhos diferentes. A Vidoc reproduziu as saídas do Mythos—as próprias descobertas de vulnerabilidades—usando modelos existentes. OpenMythos tenta reproduzir a arquitetura—a máquina real que produz essas saídas. Um diz que você não precisa do Mythos para encontrar os bugs que ele encontrou. O outro diz que, eventualmente, você poderá construir algo parecido com o Mythos por conta própria.

A Anthropic quase certamente não compartilha publicamente as suposições arquitetônicas de Gomez, e várias das escolhas de design no OpenMythos são declarações explícitas de cautela—o readme garante ser vago o suficiente para que os usuários saibam que isso é apenas uma abordagem. Ele repete várias vezes “provavelmente,” “suspeitado,” e “quase certamente.” O Mythos real pode nem ser um transformador em loop. Ou pode ser um com detalhes que Gomez ainda não conseguiu reverterar. O que o OpenMythos demonstra é que a literatura de pesquisa já contém a maior parte das peças. Transformadores em loop, Mistura de Especialistas, Multi-Latent Attention, Tempo de Cálculo Adaptativo, a correção de estabilidade do Parcae—nenhum deles é proprietário. O repositório é, mais do que tudo, um inventário do que se sabe publicamente sobre como construir um modelo de classe Mythos. O repositório tem licença MIT, e já possui 2.700 forks. O script de treinamento está lá, esperando alguém com uma GPU e uma tese para provar.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar