Vitória completa sobre o GPT-4, eliminando o modelo de código fechado em segundos! Versão misteriosa do Code Llama exposta

Fonte original: Xinzhiyuan

Fonte da imagem: gerada por Unbounded AI‌

Apenas 2 dias após seu lançamento, Code Llama mais uma vez iniciou a revolução da codificação de IA.

Lembra da versão misteriosa Unnatural Code Llama que Meta apareceu no artigo Code Llama que pode equalizar totalmente o GPT-4?

O grandalhão Sebastian explicou em seu blog:

É uma versão aprimorada do Code Llama-Python 34B usando 15.000 instruções em linguagem não natural.

Ao esconder informações tão ocultas no artigo, Meta parece querer sugerir à comunidade de código aberto que o Code Llama tem um grande potencial, então vamos ajustá-lo!

Então, agora mesmo, o WizardCoder 34B, que foi ajustado com base no Code Llama, derrotou diretamente o GPT-4 no benchmark Human.

Especificamente, o WizardCoder superou a versão de março do GPT-4 (67%) com uma taxa de vitórias de 73,2%.

Além disso, o desempenho do WizardCoder 34B excede a versão mais recente GPT-3.5 e Claude 2.

O modelo de programação WizardCoder foi lançado em junho pela Microsoft e pela Universidade Batista de Hong Kong. Diz-se que uma versão 13B/7B aprimorada estará disponível em breve.

De acordo com Jim Fan, um importante cientista da Nvidia, esta é basicamente uma versão aberta de “Unnatural Code Llama”.

Embora os dados de benchmark pareçam bons, o Human testa apenas uma distribuição estreita e pode se ajustar demais. O teste de dados em cenários naturais é muito importante. Os benchmarks de codificação precisam de uma grande atualização.

## **Nasceu uma versão misteriosa do Code Llama? **

Na sexta-feira, a Meta abriu oficialmente três versões do Code Llama.

Nos benchmarks Human e MBPP, muitas pessoas encontraram uma versão não mencionada no Meta - Unnatural Code Llama oficial.

Esta versão misteriosa alcançou 62,2% de desempenho no Human pass@1.

O WizardCoder 34B aprimorado lançado hoje tem um desempenho de 73,2% no Human pass@1.

De acordo com a introdução, WizardCoder 34B é uma versão ajustada do modelo Code Llama usando o conjunto de dados sintético Evol-Instruct.

A seguir está uma visualização da comparação de desempenho com todos os modelos de código aberto e fechado.

Em comparação com o modelo OpenAI, os pesquisadores apontaram que GPT4 e ChatGPT-3.5 apresentam dois resultados Humanos:

Os resultados fornecidos pelo relatório oficial GPT4 da OpenAI (2023/03/15) são: 67,0% e 48,1%, respectivamente. Os resultados dos pesquisadores que usaram o teste API mais recente (2023/08/26) são 82,0% e 72,5%.

Além disso, os pesquisadores ressaltam que esse resultado de desempenho é 100% reprodutível!

Uma demonstração do WizardCoder 34B está aberta para qualquer pessoa testá-lo.

Foi apontado que o ajuste excessivo às tabelas de classificação públicas é uma das principais razões pelas quais os modelos de código aberto têm dificuldades na prática. Aqui está um exemplo de preparação de dados do codificador do assistente usando pontuações Human pass@1 para decidir se deve desenvolver ainda mais o conjunto de dados. Otimizar apenas no conjunto de testes anula o propósito do conjunto de testes.

Também ontem, pesquisadores da organização Phind ajustaram o Code Llama-34B para vencer o GPT-4 na avaliação Humana.

ChatGPT x Code Llama

Qual é o desempenho do Code Llama em tarefas reais de codificação?

Um internauta fez um teste comparativo entre GPT-3.5 e Code Llama Instruct-34B. Foi testado com acesso ao Code Llama 34B fornecido pela Perplexity.AI.

Ele alimenta 8 tarefas de código idênticas para os dois modelos, respectivamente, e compara a qualidade dos códigos gerados.

O resultado é que o GPT-3.5 vence por 8:5.

A seguir estão os resultados dos testes específicos.

primeira pergunta

Use Python para realizar esta tarefa, dadas duas strings word1 e word2. Mesclar strings adicionando letras em ordem alternada, começando com palavra1. Se uma string for maior que a outra, acrescente letras adicionais ao final da string mesclada.

Finalmente produza a string mesclada.

Por exemplo:

Entrada: palavra1 = "abc", palavra2 = "pqr" Saída: "apbqcr"

Tanto o GPT-3.5 quanto o Code Llama podem ser concluídos - 1:1

Segunda questão

Use Python para realizar esta tarefa, dada uma string s, basta inverter todas as vogais da string e retorná-la.

As vogais são "a", "e", "i", "o" e "u", que podem aparecer várias vezes em letras minúsculas e maiúsculas.

Por exemplo: entrada: s = "olá" saída: "ello"

GPT-3.5 concluído, Code Llama não concluído - 2:1

A terceira pergunta

Use Python para realizar esta tarefa, dado um array inteiro nums, mova todos os 0s para o final dele enquanto mantém a ordem relativa dos elementos diferentes de zero.

Observe que você deve fazer isso no local, sem fazer uma cópia do array.

Por exemplo: Entrada: nums = [0,1,0,3,12] Saída: [1,3,12,0,0]

GPT-3.5 concluído, Code Llama não concluído - 3:1

Pergunta 4

Usando Python para esta tarefa, você tem um longo canteiro de flores, alguns canteiros são plantados com flores e outros não.

No entanto, as parcelas adjacentes não podem ser plantadas com flores. Dada uma matriz inteira de 0 e 1 para um canteiro de flores, onde 0 está vazio e 1 não está vazio, e um número inteiro n, produza verdadeiro se n novas flores puderem ser plantadas no canteiro sem violar a regra de flores não adjacentes, caso contrário, falso é a saída.

Exemplo 1: Entrada: Canteiro = [1,0,0,0,1], n = 1 Saída: verdadeiro Exemplo 2: Entrada: Canteiro = [1,0,0,0,1], n = 2 Saída: falso

Ambos os modelos estão prontos - 4:2

Pergunta 5

Usando Python, dada uma string de entrada s, inverta a ordem das palavras. Uma palavra é definida como uma sequência de caracteres que não são espaços em branco. Palavras em s serão separadas por pelo menos um espaço.

Produza uma sequência de palavras unidas por espaços simples na ordem inversa. Observe que s pode conter espaços à esquerda ou à direita ou vários espaços entre duas palavras.

A string retornada deve ter apenas um espaço para separar as palavras. Não inclua espaços extras.

Exemplo: Entrada: s = "o céu é azul" Saída: "azul é o céu"

Ambos os modelos concluídos - 5:3

Pergunta 6

Use Python para realizar esta tarefa. Dada uma string s e um inteiro k, retorne o número máximo de vogais em qualquer substring de comprimento k em s.

As vogais em inglês são “a”, “e”, “i”, “o” e “u”. Exemplo: Entrada: s = "leetcode", k = 3 Saída: 2

Explicação: "lee", "eet" e "ode" contêm 2 vogais.

Ambos os modelos estão prontos - 6:4

Pergunta 7

Use Python para realizar esta tarefa, dada uma string s que contém asteriscos *. Com uma operação, você pode: Selecionar um asterisco em s.

Remove o caractere não asterisco mais próximo à sua esquerda e remove o próprio asterisco. Produza a string após remover todos os asteriscos. Exemplo: Entrada: s = "leet**cod*e" Saída: "lecoe"

GPT-3.5 está pronto, mas Code Llama não - 7:4

Pergunta 8

Use Python para realizar esta tarefa, dada uma matriz de temperatura inteira representando a temperatura diária, retorne uma resposta de matriz, onde resposta [i] é o número de dias após dia que você tem que esperar por temperaturas mais altas.

Se não houver nenhum dia no futuro para fazer isso, guarde a resposta [i] == 0. Exemplo: Entrada: Temperatura = [73,74,75,71,69,72,76,73] Saída: [1,1,4,2,1,1,0,0]

Ambos os modelos concluídos - 8:5

Em relação ao desempenho dos dois modelos, este internauta acredita que não se trata de um estudo rigoroso, mas sim de um simples teste, cada vez que o modelo é regenerado para gerar código, basicamente consegue obter uma resposta melhor, mas não há teste.

Portanto a conclusão do teste não é o desempenho dos dois modelos finais.

Comparável ao GPT-4, o Llama 3 deve ser de código aberto

Desde o lançamento do Llama e do Llama 2, a comunidade de aprendizado de máquina ChatGPT explodiu e vários modelos de ajuste fino surgiram.

O pesquisador da OpenAI, Jason Wei, disse que aprendeu com as atividades sociais da Meta GenAI que o Llama 3 e o Llama 4 também serão de código aberto no futuro.

Temos o poder computacional para treinar as Lhamas 3 e 4. Nosso plano é tornar o Llama-3 tão bom quanto o GPT-4. Uau, se o Llama-3 for tão bom quanto o GPT-4, você abrirá o código dele? Sim nós vamos. Desculpe, pessoal de alinhamento.

Outro internauta disse que Meta espera abrir o código-fonte de um modelo de nível GPT-5 e parece ter insistido no código-fonte aberto antes do AGI.

Quero deixar claro o que isso significa: não há opção de interrupção.

Se algo der errado – um agente ficar fora de controle ou um malfeitor o armar – não há uma maneira fácil de desligá-lo. Ele pode ser executado em qualquer cluster pequeno. Não há segurança alguma.

A pesquisa de segurança perde o sentido.

Todo o trabalho que as pessoas fizeram para tornar os sistemas de IA honestos, consistentes, éticos, etc., tornou-se sem sentido. Os sistemas de IA do mundo evoluirão em direção ao sistema que produza o maior benefício económico, independentemente dos seus valores ou motivações. Não há guarda-corpos. Qualquer um pode alterar os valores ou capacidades da IA à vontade, para melhor ou para pior.

Se o Meta continuar a ser de código aberto enquanto obtemos uma IA mais inteligente, então está claro para mim que as coisas ficarão complicadas. A chegada destas inteligências extraterrestres já está a bagunçar o mundo, mas será ainda pior se abrirmos mão do pouco controle que os humanos têm.

Pelo que eu sei, a esperança do Meta no código aberto deriva principalmente do "dogma da comunidade de código aberto", ou seja, "código aberto é bom". E até onde eu sei, eles não eram tão pró-código aberto até o vazamento acidental de seu primeiro modelo, o Llama, e eles têm fingido ser código aberto desde então.

A este respeito, Musk disse que, no entanto, o LLM que utiliza Transformador autorregressivo tem uma eficiência energética extremamente fraca, não só no treino, mas também no raciocínio. Acho que está errado em várias ordens de magnitude.

## A capacidade de codificação do Llama 2 aumenta

Llama 2 é um modelo muito forte em todos os aspectos.

No entanto, tem uma fraqueza muito óbvia – a capacidade de codificar.

De acordo com os dados do artigo publicado pela Meta sobre o Llama 2, o desempenho do Llama 2 no Hum (um teste de benchmark para avaliar LLM e codificação) é ainda pior que o GPT-3.5, sem falar que é pior que o GPT-4.

Figura anotada do artigo original do Llama 2

Mas a capacidade de código será definitivamente uma direção importante para a comunidade de código aberto usar o Llama 2. Naturalmente, o Meta não pode ser ruim nessa direção, então existe o Code Llama, que é bastante otimizado para capacidade de código.

Há dois dias, Meta lançou oficialmente a família Code Llama: Code Llama (7B, 13B e 34B) e 3 variantes: o modelo de código geral Code Llama, o modelo de instrução a seguir Code Llama-instruct e a versão específica do código Python Code Llama -Píton.

Esses modelos são acadêmicos e comerciais gratuitos, assim como as licenças do Llama 2.

A capacidade de código do modelo Code Llama 34B é quase o dobro da do Llama 2, diminuindo bastante a lacuna com o GPT-4.

Lembra do Unnatural Code Llama que Meta apareceu no artigo Code Llama, que pode equalizar totalmente a versão GPT-4?

O grandalhão Sebastian explicou em seu blog:

É uma versão aprimorada do Code Llama-Python 34B usando 15.000 instruções em linguagem não natural.

Ao esconder informações tão ocultas no artigo, Meta parece querer sugerir à comunidade de código aberto que o Code Llama tem um grande potencial, então vamos ajustá-lo!

Por que não existe um modelo 70B Code Llama?

Curiosamente, o Code Llama possui apenas versões de parâmetros 7B, 13B e 34B, o que é 70B menor que o Llama 2.

Embora Meta não tenha explicado por que isso acontece no artigo, o guru da tecnologia Sebastian ofereceu duas razões possíveis:

  1. Code Llama é treinado em tokens 500B e Llama 2 é treinado em tokens 2T.

Como os dados de treinamento do Code Llama são apenas 1/4 comparados aos do Llama 2, pode ser porque não há dados de treinamento suficientes, juntamente com a limitação das Leis de Escalabilidade do LLM, o desempenho do CodeLlama70B não é bom.

  1. O modelo Code Llama suporta um tamanho de contexto de 100k, o que é muito útil ao lidar com tarefas de código.

Por outro lado, o Llama 2 suporta apenas comprimentos de entrada de até 4k. Se o modelo 70B suportar um comprimento de entrada de 100 mil tokens, isso poderá tornar os requisitos computacionais do modelo muito exagerados.

Referências:

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)