Futuros
Acesse centenas de contratos perpétuos
TradFi
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
Pre-IPOs
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos em RWA
Esta IA Frankenstein Mescla Claude Opus, GLM e Qwen—E Supera os Modelos Mais Avançados
Resumidamente
Você achava que Qwopus era legal porque mesclou Qwen e Opus? Bem, Kyle Hessling, um engenheiro de IA com bastante conhecimento e tempo livre, simplesmente pegou essa receita e colocou o GLM—um dos melhores modelos de raciocínio disponíveis—na mistura. O resultado é uma frankenmerge de 18 bilhões de parâmetros que cabe em uma GPU barata e supera o mais novo modelo de 35B da Alibaba. Para quem não sabe, parâmetros são os valores numéricos incorporados a uma rede neural durante o treinamento, como botões que uma rede neural pode ajustar — quanto mais deles, mais conhecimento e complexidade o modelo pode lidar, e mais memória ele precisa para rodar. Hessling, um engenheiro de infraestrutura de IA, empilhou duas finetunes do Qwen3.5 de Jackrong uma sobre a outra: camadas 0 a 31 do Qwopus 3.5-9B-v3.5, que destila o estilo de raciocínio do Claude 4.6 Opus em Qwen como modelo base, e camadas 32 a 63 do Qwen 3.5-9B-GLM5.1-Distill-v1, treinado com dados de raciocínio do modelo professor GLM-5.1 da z.AI, sobre a mesma base Qwen.
A hipótese: Dar ao modelo uma estrutura de planejamento ao estilo Opus na primeira metade do raciocínio e a decomposição de problemas do GLM na segunda—64 camadas no total, em um único modelo. A técnica é chamada de frankenmerge de passagem—sem mistura, sem média de pesos, apenas empilhamento bruto de camadas. Hessling teve que escrever seu próprio script de mesclagem do zero porque as ferramentas existentes não suportam a arquitetura híbrida de atenção linear/completa do Qwen 3.5. O modelo resultante passou em 40 de 44 testes de capacidade, superando o Qwen 3.6-35B-A3B MoE da Alibaba—que requer 22 GB de VRAM—enquanto roda com apenas 9,2 GB na quantização Q4_K_M. Um NVIDIA RTX 3060 lida com isso tranquilamente… teoricamente.
Hessling explica que fazer esse modelo não foi fácil. A mesclagem bruta costumava gerar código confuso. Mas mesmo assim, os modelos de teste que ele publicou viralizaram entre entusiastas. A última correção de Hessling foi uma “cura de fine-tune”—basicamente um QLoRA (um pouco de código embutido no modelo como um apêndice e que condiciona fortemente a saída final ) direcionando toda atenção e projeções. Testamos, e mesmo que a ideia de ter Qwen, Claude Opus e GLM 5.1 rodando localmente em nosso hardware modesto seja tentadora, na prática descobrimos que o modelo é tão bom em raciocinar que acaba pensando demais. Quando testamos em um MacBook M1 rodando uma versão quantizada MLX (um modelo otimizado para Macs), ao solicitar a geração do nosso jogo de teste habitual, a cadeia de raciocínio ficou tão longa que atingiu o limite de tokens e nos deu um longo trecho de raciocínio sem um resultado funcional em uma interação de zero-shot. Isso é um obstáculo diário para quem quer rodar isso localmente em hardware de consumo para aplicações sérias. Ficamos um pouco mais suaves e as coisas ainda foram desafiadoras. Um simples comando “escreva um jogo da Cobra” levou mais de 40 minutos de raciocínio… muita coisa.
Você pode ver os resultados no nosso repositório no Github. Essa é uma tensão conhecida na linhagem Qwopus: as finetunes v2 de Jackrong foram criadas para resolver a tendência do Qwen 3.5 a loops internos repetitivos e “pensar de forma mais econômica.” Empilhar 64 camadas de duas destilações de raciocínio parece amplificar esse comportamento em certos prompts.
Esse é um problema que pode ser resolvido, e a comunidade de código aberto provavelmente irá resolvê-lo. O que importa aqui é o padrão mais amplo: um desenvolvedor pseudônimo publica finetunes especializados com guias de treinamento completos, outro entusiasta os empilha com um script personalizado, realiza 1.000 passos de cura, e consegue um modelo que supera uma versão de 35 bilhões de parâmetros de um dos maiores laboratórios de IA do mundo. Tudo isso cabe em um arquivo pequeno. É isso que torna o código aberto interessante—não apenas os grandes laboratórios lançando pesos, mas as soluções camada por camada, a especialização acontecendo abaixo do radar. A diferença entre um projeto de fim de semana e uma implantação de fronteira fica menor à medida que mais desenvolvedores entram na comunidade. Jackrong desde então espelhou o repositório de Hessling, e o modelo acumulou mais de três mil downloads nas primeiras duas semanas de disponibilidade.