Alucinações fatais, desenvolvimento de alternativas de GPU, modelos grandes ainda enfrentam esses 10 grandes desafios

O lançamento do ChatGPT, GPT-4, etc., deixou-nos ver o encanto do modelo grande (LLM), acompanhado dos vários desafios que enfrenta.

Fonte da imagem: gerada por Unbounded AI

Como tornar o LLM melhor? Diante de grandes modelos, que problemas precisam ser resolvidos? Tornou-se um importante tópico de pesquisa no campo da IA.

Neste artigo, o cientista da computação Chip Huyen parte de 10 aspectos e expõe de forma abrangente os desafios enfrentados pelo LLM. Especificamente, os dois primeiros aspectos são sobre alucinações e aprendizagem de contexto, e vários outros aspectos incluem, mas não estão limitados a, multimodalidade, arquitetura, descoberta de alternativas de GPU, etc.

Endereço original:

A seguir está uma tradução do texto original.

1. Como reduzir alucinações

O problema da alucinação ocorre quando o texto gerado pelo LLM é fluido e natural, mas não fiel à fonte do conteúdo (problema intrínseco) e/ou incerto (problema extrínseco). Este problema existe amplamente no LLM.

Portanto, é muito importante aliviar as alucinações e desenvolver indicadores para medir as alucinações, e muitas empresas e instituições estão prestando atenção a esta questão. Chip Huyen disse que há muitas maneiras de reduzir as alucinações neste estágio, como adicionar mais contexto ao prompt, usar cadeias de pensamento ou tornar a resposta do modelo mais concisa.

Os materiais que podem ser referenciados incluem:

  • Uma revisão da pesquisa sobre alucinações na geração de linguagem natural:
  • Como a ilusão da linguagem modela bolas de neve:
  • Avaliação ChatGPT sobre raciocínio, alucinações e interatividade:
  • A aprendizagem contrastiva reduz as alucinações nas conversas:
  • A autoconsistência melhora a capacidade de raciocínio da cadeia de pensamento do modelo de linguagem:
  • Detecção de alucinações de caixa preta para modelos generativos de linguagem grande:

2. Otimize o comprimento e a estrutura do contexto

Outro foco de pesquisa do LLM é o comprimento do contexto, porque o modelo grande precisa se referir ao contexto ao responder às perguntas do usuário, e quanto maior o comprimento que pode ser processado, mais útil ele será para o LLM. Por exemplo, perguntamos ao ChatGPT “Qual é o melhor restaurante vietnamita?” Diante dessa pergunta, o ChatGPT precisa consultar o contexto para descobrir se o usuário está perguntando sobre o melhor restaurante vietnamita no Vietnã ou o melhor restaurante vietnamita nos Estados Unidos. Estados, não é o mesmo.

Nesta subseção, Chip Huyen apresenta vários artigos relacionados.

O primeiro é "SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA", ambos autores da Universidade do Texas em Austin. O artigo apresenta um conjunto de dados de controle de qualidade de recuperação aberta SITUATEDQA, e os leitores interessados podem conferir para saber mais.

Chip Huyen afirmou que como o modelo aprende a partir do contexto fornecido, esse processo é chamado de aprendizagem contextual.

O segundo artigo é "Geração Retri-Augmented para tarefas de PNL com uso intensivo de conhecimento", este artigo propõe RAG (Geração Retri-Augmented), que pode combinar modelos de linguagem pré-treinados e conhecimento externo para realizar respostas generativas de perguntas de domínio aberto e outros conhecimentos Tarefas intensivas.

O processo de operação RGA é dividido em duas fases: a fase de chunking (também conhecida como recuperação) e a fase de consulta:

Muitas pessoas pensam, com base nesta pesquisa, que quanto mais longo o contexto, mais informações o modelo irá acumular e melhor será a sua resposta. Chip Huyen acha que esta afirmação não é totalmente verdadeira.

Quanto contexto um modelo pode usar e quão eficientemente um modelo usa o contexto são duas questões completamente diferentes. O que precisamos fazer é aumentar a eficiência do contexto de processamento do modelo em paralelo e, ao mesmo tempo, aumentar o comprimento do contexto do modelo. Por exemplo, no artigo "Perdido no meio: como os modelos de linguagem usam contextos longos", o artigo descreve como o modelo pode compreender melhor as informações no início e no final do índice, em vez das informações intermediárias.

3. Multimodal

Chip Huyen acredita que a multimodalidade é muito importante.

Primeiro, domínios que incluem saúde, robótica, comércio eletrônico, varejo, jogos, entretenimento, etc., exigem dados multimodais. Por exemplo, a previsão médica requer conteúdo de texto, como anotações médicas e questionários de pacientes, bem como informações de imagem, como tomografia computadorizada, raio-X e ressonância magnética.

Em segundo lugar, a multimodalidade promete melhorar muito o desempenho do modelo, com modelos que conseguem compreender texto e imagens com melhor desempenho do que modelos que só conseguem compreender texto. No entanto, os modelos baseados em texto exigem tanto texto que as pessoas estão começando a se preocupar com a possibilidade de em breve ficarmos sem dados da Internet para treinar modelos. Esgotado o texto, precisamos considerar outras modalidades de dados.

Diagrama de Arquitetura Flamingo

Em relação à multimodalidade, você pode consultar os seguintes conteúdos:

  • Passo 1《Aprendendo modelos visuais transferíveis com supervisão de linguagem natural》:
  • Passo 2《Flamingo: um modelo de linguagem visual para aprendizagem em poucas tentativas》:
  • Passo 3《BLIP-2: Inicialização do pré-treinamento de imagem-linguagem com codificadores de imagem congelada e modelos de linguagem grandes》:
  • Passo 4《A linguagem não é tudo que você precisa: Alinhando a percepção com os modelos de linguagem》:
  • Artigo 5 "Ajuste de Instrução Visual":
  • Google PaLM-E:
  • NVIDIA NeVA:

4. Torne o LLM mais rápido e barato

O GPT-3.5 foi lançado pela primeira vez no final de novembro de 2022 e muitas pessoas estão preocupadas com o alto custo de uso. No entanto, em apenas meio ano, a comunidade encontrou um modelo próximo do GPT-3.5 em termos de desempenho, e o consumo de memória necessário é de apenas 2% do GPT-3.5.

Chip Huyen disse que se você criar algo bom o suficiente, as pessoas logo encontrarão uma maneira de torná-lo rápido e barato.

A seguir está uma comparação de desempenho do Guanaco 7B com modelos como ChatGPT e GPT-4. Mas temos que enfatizar que é muito difícil avaliar o LLM.

Em seguida, Chip Huyen listou técnicas de otimização e compressão de modelo:

  • Quantificação: O método mais geral para otimização de modelos até o momento. A quantização usa menos bits para representar parâmetros, reduzindo assim o tamanho do modelo.Por exemplo, alguém altera um número de ponto flutuante de 32 bits para uma representação de ponto flutuante de 16 bits, ou mesmo uma representação de ponto flutuante de 4 bits;
  • Destilação de Conhecimento: Método de treinar um modelo pequeno (aluno) para imitar um modelo maior ou conjunto de modelos (professor);
  • Decomposição de baixa classificação: A ideia principal é substituir tensores de alta dimensão por tensores de baixa dimensão para reduzir o número de parâmetros. Por exemplo, os usuários podem decompor um tensor 3x3 em um produto de tensores 3x1 e 1x3, de modo que haja apenas 6 parâmetros em vez de 9;
  • Poda.

Os quatro métodos acima ainda são populares, como treinar Alpaca com destilação de conhecimento e QLoRA combinando decomposição e quantização de baixa classificação.

5. Projete uma nova arquitetura de modelo

Desde o lançamento do AlexNet em 2012, muitas arquiteturas, incluindo LSTM e seq2seq, tornaram-se populares e depois obsoletas. Ao contrário disso, o Transformer é incrivelmente pegajoso. Ele existe desde 2017 e ainda é amplamente utilizado até agora. É difícil estimar por quanto tempo essa arquitetura será popular.

No entanto, não é fácil desenvolver uma arquitetura completamente nova para superar o Transformer. Nos últimos 6 anos, os pesquisadores fizeram muitas otimizações no Transformer. Além da arquitetura do modelo, também inclui otimização no nível do hardware.

O laboratório liderado pelo cientista da computação americano Chris Ré conduziu muitas pesquisas em torno do S4 em 2021. Para obter mais informações, consulte o artigo "Modelagem eficiente de sequências longas com espaços de estados estruturados". Além disso, o laboratório Chris Ré investiu pesadamente no desenvolvimento de novas arquiteturas e recentemente fez parceria com a startup Together para desenvolver a arquitetura Monarch Mixer.

Sua ideia principal é que, para a arquitetura Transformer existente, a complexidade da atenção é quadrática do comprimento da sequência, enquanto a complexidade do MLP é quadrática da dimensão do modelo, e a arquitetura com baixa complexidade será mais eficiente.

6. Desenvolva alternativas de GPU

As GPUs dominaram o aprendizado profundo desde o lançamento do AlexNet em 2012. Na verdade, uma razão bem reconhecida para a popularidade do AlexNet é que ele foi o primeiro artigo a treinar com sucesso uma rede neural usando GPUs. Antes do surgimento das GPUs, se você quisesse treinar um modelo do tamanho do AlexNet, seria necessário usar milhares de CPUs, e algumas GPUs poderiam fazer isso.

Na última década, tanto grandes corporações quanto startups tentaram criar novo hardware para inteligência artificial. Os mais representativos incluem, entre outros, a TPU do Google, a IPU da Graphcore e a empresa de chips de IA Cerebras. Além disso, a startup de chips de IA SambaNova arrecadou mais de US$ 1 bilhão para desenvolver novos chips de IA.

Outra direção interessante são os chips fotônicos, que usam fótons para movimentar dados, permitindo uma computação mais rápida e eficiente. Várias startups neste espaço levantaram centenas de milhões de dólares, incluindo Lightmatter (US$ 270 milhões), Ayar Labs (US$ 220 milhões), Lightelligence (US$ 200 milhões+) e Luminous Compute (US$ 115 milhões).

A seguir está uma linha do tempo do progresso das três abordagens principais na computação de matriz fotônica, extraída do artigo "A multiplicação de matriz fotônica ilumina o acelerador fotônico e além". Os três métodos são conversão planar de luz (PLC), interferômetro Mach-Zehnder (MZI) e multiplexação por divisão de comprimento de onda (WDM).

7. Torne os agentes mais utilizáveis

Agentes são LLMs que podem realizar ações como navegar na internet, enviar e-mails, reservar um quarto, etc. Comparada com outras áreas de pesquisa neste artigo, essa direção apareceu relativamente tarde e é muito nova para todos.

É pela sua novidade e grande potencial que todos têm uma obsessão louca por agentes inteligentes. Auto-GPT é atualmente o 25º projeto mais popular no GitHub. GPT-Engineering é outro projeto muito popular.

Embora isto seja esperado e entusiasmante, permanece duvidoso se o LLM será suficientemente fiável e com desempenho suficiente para ter o direito de agir.

No entanto, um caso de aplicação que já apareceu é a aplicação de agentes à pesquisa social. Há algum tempo, Stanford abriu o código-fonte da "cidade virtual" Smallville. 25 agentes de IA viviam na cidade. Eles têm empregos, podem fofocar e podem organizar atividades sociais atividades., fazer novos amigos e até organizar uma festa de Dia dos Namorados, cada morador da cidade tem personalidade e história únicas.

Para obter mais detalhes, consulte os seguintes documentos.

Endereço do papel:

Provavelmente a startup mais famosa neste espaço é a Adept, fundada por dois coautores do Transformer e um ex-vice-presidente da OpenAI, e arrecadou quase US$ 500 milhões até o momento. No ano passado, eles fizeram uma demonstração mostrando como seu agente poderia navegar na Internet e adicionar uma nova conta ao Salesforce.

, duração 03:30

8. Aprendizado aprimorado com base nas preferências humanas

RLHF significa Aprendizagem por Reforço a partir das Preferências Humanas. Não seria surpresa se as pessoas encontrassem outras formas de treinar LLMs, afinal o RLHF ainda tem muitos problemas para resolver. Chip Huyen listou os três pontos a seguir.

**Como representar matematicamente as preferências humanas? **

Atualmente, as preferências humanas são determinadas por comparação: anotadores humanos determinam se a resposta A é melhor que a resposta B, mas não consideram o quanto a resposta A é melhor que a resposta B.

**Quais são as preferências humanas? **

A Anthropic mede a qualidade da resposta de seus modelos em três eixos: utilidade, honestidade e inocência.

Endereço do papel:

DeepMind também tenta gerar respostas que satisfaçam a maioria. Veja este artigo abaixo.

Endereço do papel:

Mas, para ser claro, queremos uma IA que possa tomar uma posição ou uma IA genérica que evite quaisquer tópicos potencialmente controversos?

**De quem são as preferências das “pessoas”? **

Dadas as diferenças de cultura, religião, etc., existem muitos desafios na obtenção de dados de formação que representem adequadamente todos os potenciais utilizadores.

Por exemplo, nos dados InstructGPT da OpenAI, os rotuladores são principalmente filipinos e bangladeshianos, o que pode causar alguns desvios devido a diferenças geográficas.

Fonte:

A comunidade de investigação também está a trabalhar neste sentido, mas o preconceito nos dados persiste. Por exemplo, na distribuição demográfica do conjunto de dados OpenAssistant, 201 dos 222 entrevistados (90,5%) eram do sexo masculino.

9. Melhore a eficiência da interface de chat

Desde o ChatGPT, tem havido muitas discussões sobre se o chat é adequado para diversas tarefas. Por exemplo, estas discussões:

  • A linguagem natural é uma interface preguiçosa *Por que os chatbots não são o futuro:
  • Que tipos de perguntas requerem diálogo para serem respondidas?
  • A interface de bate-papo AI pode se tornar a principal interface do usuário para leitura de documentação:
  • Interaja com o LLM com o mínimo de bate-papo:

Contudo, essas discussões não são novas. Muitos países, especialmente na Ásia, usam o chat como interface para superaplicativos há cerca de uma década.

  • *Bate-papo como interface comum para aplicativos chineses

Em 2016, quando muitos pensavam que os aplicativos estavam mortos e os chatbots eram o futuro, a discussão ficou tensa novamente:

  • Sobre a interface de bate-papo:
  • A tendência do chatbot é um grande equívoco:
  • Os bots não substituirão os aplicativos, os aplicativos melhores irão:

Chip Huyen disse que gosta muito da interface de chat pelos seguintes motivos:

  • O chat é uma interface que todos podem aprender a usar rapidamente, mesmo aqueles que nunca tiveram acesso a um computador ou à Internet antes.
  • Não há obstáculos na interface do chat, mesmo quando você está com pressa, você pode usar voz em vez de texto.
  • O chat também é uma interface muito poderosa, você pode fazer qualquer solicitação, mesmo que a resposta não seja boa, ele responderá.

No entanto, Chip Huyen acredita que a interface de chat deixa espaço para melhorias em algumas áreas. Ele tem as seguintes sugestões

  1. Múltiplas mensagens por rodada

Atualmente, acredita-se que apenas uma mensagem pode ser enviada por rodada. Mas não é assim que as pessoas enviam mensagens na vida real. Normalmente, diversas informações são necessárias para completar a ideia de um indivíduo, pois diferentes dados (como fotos, locais, links) precisam ser inseridos no processo, e o usuário pode ter perdido alguma coisa nas informações anteriores, ou simplesmente não o faz. deseja incluir tudo. Escreva em um parágrafo longo.

  1. Entrada multimodal

No domínio das aplicações multimodais, a maior parte do esforço é gasta na construção de modelos melhores e pouco é gasto na construção de interfaces melhores. No caso do chatbot NeVA da Nvidia, pode haver espaço para melhorar a experiência do usuário.

endereço:

  1. Incorpore IA generativa em fluxos de trabalho

Linus Lee articula isso bem em sua palestra “Interfaces geradas por IA além do chat”. Por exemplo, se você quiser fazer uma pergunta sobre uma coluna de um gráfico em que está trabalhando, basta apontar para essa coluna e perguntar.

Endereço do vídeo:

  1. Editando e excluindo informações

Vale a pena pensar em como editar ou excluir a entrada do usuário pode alterar o fluxo de uma conversa com um chatbot.

10. Construindo um LLM para idiomas diferentes do inglês

Os LLMs atuais para inglês como primeira língua não se adaptam bem a outras línguas em termos de desempenho, latência e velocidade. O conteúdo relacionado pode ser lido nos seguintes artigos:

Endereço do papel:

Endereço do artigo:

Chip Huyen disse que vários dos primeiros leitores deste artigo lhe disseram que achavam que essa direção não deveria ser incluída por dois motivos.

  1. Esta não é tanto uma questão de investigação, mas sim de logística. Já sabemos como fazer, basta que alguém invista dinheiro e energia, o que não é bem verdade. A maioria dos idiomas são considerados idiomas de poucos recursos, por exemplo, possuem dados de muito menos qualidade do que o inglês ou o chinês e, portanto, podem exigir técnicas diferentes para treinar grandes modelos de idiomas. Veja os seguintes artigos:

Endereço do papel:

Endereço do papel:

  1. As pessoas pessimistas pensam que muitas línguas desaparecerão no futuro e que a futura Internet consistirá em duas línguas: inglês e chinês.

O impacto das ferramentas de IA, como a tradução automática e os chatbots, na aprendizagem de línguas não é claro. Não se sabe se eles ajudam as pessoas a aprender novos idiomas mais rapidamente ou eliminam totalmente a necessidade de aprender novos idiomas.

Resumir

Os problemas mencionados neste artigo também possuem diferentes níveis de dificuldade, como o último problema, se você encontrar recursos e tempo suficientes, é possível construir LLM para idiomas diferentes do inglês.

Um dos primeiros problemas é reduzir as alucinações, o que será muito mais difícil, porque as alucinações são apenas LLM fazendo coisas probabilísticas.

O quarto problema é tornar o LLM mais rápido e barato, e isso não será completamente resolvido. Foram feitos alguns progressos nesta área e haverá mais progressos no futuro, mas nunca iremos melhorar até à perfeição.

A quinta e a sexta questões são novas arquiteturas e novo hardware, o que é muito desafiador, mas inevitável ao longo do tempo. Devido à relação simbiótica entre arquitetura e hardware, onde novas arquiteturas precisam ser otimizadas para hardware de uso geral e necessidades de hardware para suportar arquiteturas de uso geral, esse problema poderia ser potencialmente resolvido pela mesma empresa.

Existem também problemas que não podem ser resolvidos apenas com conhecimento técnico. Por exemplo, o oitavo problema de melhorar os métodos de aprendizagem a partir das preferências humanas pode ser mais uma questão política do que técnica. Falando na nona questão, melhorar a eficiência da interface, isso é mais como um problema de experiência do usuário, e mais pessoas com formação não técnica são necessárias para resolver esse problema juntas.

Se você quiser analisar esses problemas de outros ângulos, Chip Huyen recomenda a leitura do artigo a seguir.

Endereço do papel:

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)