Fundador da Anthropic: É possível "tirar raios-X" em modelos grandes, e o AGI pode ser realizado em 2 a 3 anos

Este artigo foi compilado a partir de uma entrevista em podcast com o CEO da Anthropic, Dario Amodei.

A Anthropic é a segunda empresa do circuito LLM. Foi fundada em janeiro de 2021 por Dario Amodei. Em julho deste ano, a Anthropic lançou o modelo de última geração Claude 2. Dario Amodei costumava ser o vice-presidente de pesquisa e segurança da OpenAI. Ele fundou a Anthropic porque acreditava que há muitos problemas de segurança em grandes modelos que precisam ser resolvidos com urgência. Portanto, a Anthropic atribui grande importância à segurança da IA. A visão é para construir sistemas de IA confiáveis (confiáveis), explicáveis, interpretáveis e orientáveis. A maior diferença entre as rotas Anthropic e OpenAI também é o foco na interpretabilidade.

Na entrevista, Dario explica o foco e o investimento da Anthropic na interpretabilidade. A interpretabilidade é uma das formas importantes de garantir a segurança do modelo, **assim como fazer radiografias e exames de ressonância magnética no modelo, possibilitando que os pesquisadores entendam o que está acontecendo dentro do modelo e identifiquem possíveis fontes de risco. Entender verdadeiramente por que a Scaling Law funciona e como alcançar o alinhamento é inseparável da interpretabilidade. **Dario acredita que a segurança da IA e o alinhamento são igualmente importantes. Uma vez que haja um problema com o alinhamento, as questões de segurança da IA causadas por abuso devem receber igual atenção.

Dario acredita que a capacidade do modelo será significativamente melhorada nos próximos 2-3 anos, e pode até "assumir o controle da sociedade humana", mas não pode realmente participar dos negócios e das relações econômicas. Isso não é por causa da capacidade de o modelo, mas devido a vários atritos invisíveis, as pessoas não usam modelos com eficiência suficiente para realizar seu verdadeiro potencial na vida real e no trabalho.

Comparado com os CEOs da maioria das empresas de IA, Dario dificilmente participa de entrevistas públicas e raramente expressa suas opiniões no Twitter. Dario explicou que esta é sua própria escolha ativa e ele protege sua capacidade de pensar de forma independente e objetiva mantendo um perfil discreto.

A seguir está o índice deste artigo, e é recomendável lê-lo em combinação com os pontos principais.

👇

01 Por que a Lei de Escala Funciona

02 Como a habilidade do modelo se equiparará à dos humanos?

03 Alinhamento: Interpretabilidade é "raio-X" do modelo

04 AGI Safety: AI Safety e Cyber Security

05 Comercialização e Benefício de Longo Prazo Trust

Por que a Lei de Escala funciona

**Dwarkesh Patel: De onde veio sua crença na Lei de Escala? Por que a capacidade do modelo se torna mais forte à medida que o tamanho dos dados aumenta? **

**Dario Amodei: A Lei de Escala é, até certo ponto, um resumo empírico. Percebemos esse fenômeno a partir de vários dados e fenômenos e o resumimos como Lei de Escala, mas não há uma explicação geralmente aceita e particularmente boa para explicá-la. Explique o que é princípio essencial de sua função é. **

Se eu tiver que dar uma explicação, eu pessoalmente especulo que isso pode ser semelhante à distribuição de cauda longa ou Lei de Potência na física. Quando há muitos recursos (recursos), os dados com uma proporção relativamente grande geralmente correspondem a regras e padrões básicos mais dominantes, porque esses padrões geralmente aparecem, a quantidade correspondente de dados é naturalmente maior, enquanto os dados de cauda longa são principalmente alguns regras mais detalhadas e complexas. **Por exemplo, ao lidar com dados relacionados ao idioma, algumas regras básicas podem ser observadas na maioria dos dados, como regras gramaticais básicas, como parte do discurso, estrutura da ordem das palavras, etc., e as relativamente de cauda longa são gramáticas complexas.

É por isso que toda vez que os dados aumentam em uma ordem de grandeza, o modelo pode aprender mais regras comportamentais. Mas o que não sabemos é por que existe uma correlação linear perfeita entre os dois. O cientista-chefe da Anthropic, Gerard Kaplan, usou a dimensão fractal (Fractal Dimension) para explicar esse assunto. Claro, outras pessoas estão tentando outros métodos para verificar a Lei de Sacling, mas ainda não conseguimos explicar o porquê até agora.

• Dimensão Fractal:

O matemático Felix Hausdorff propôs pela primeira vez o conceito de dimensão fractal em 1918, que mais tarde também ficou conhecido como Dimensão Hausdorff. A dimensão fractal pode ser usada para descrever a estrutura de relacionamento de recurso oculto em dados de aprendizado de máquina e fornece um modelo de explicação matemática por trás do efeito de escala, explicando assim por que os modelos de IA podem melhorar o desempenho com escala.

**Além disso, mesmo sabendo da existência da Scaling Law, é difícil prever as mudanças nas capacidades específicas do modelo. Na pesquisa de GPT-2 e GPT-3, nunca sabemos quando o modelo pode aprender a calcular e programar, e essas habilidades aparecem de repente. **A única coisa que pode ser prevista é no nível numérico, como o valor da perda, a mudança do valor da entropia, etc. pode ser prevista com bastante precisão, mas é como se pudéssemos fazer estatísticas sobre dados meteorológicos e prever toda a tendência de mudança do clima, mas é difícil prever o clima e a temperatura de um dia específico.

**Dwarkesh Patel: Por que um modelo de repente pode ter uma certa habilidade? Por exemplo, antes não entendia de adição, mas agora domina a capacidade de calcular? O que causou essa mudança? **

Dario Amodei: Essa é outra questão que ainda estamos explorando. Tentamos explicar este assunto com o método da interpretabilidade mecanicista, e explicar os fenômenos da linguagem com uma idéia semelhante à conexão de circuitos.Você pode imaginar essas coisas como circuitos conectados um a um.

Há alguma evidência de que quando um modelo é alimentado com alguma coisa, sua probabilidade de dar a resposta correta aumenta repentinamente, mas se olharmos para a mudança antes que o modelo realmente dê a resposta correta, vemos que a probabilidade é de um milhão Centésimo , centésimo milésimo subiu lentamente para um milésimo. Em muitos desses casos, parece haver algum processo gradual acontecendo que não observamos e que ainda não descobrimos.

Não podemos ter certeza se um "circuito" como "adição" sempre existiu desde o dia 1, mas mudou gradualmente de fraco para forte com um processo específico, para que o modelo possa dar a resposta correta. Essas são perguntas que queremos responder por meio da explicabilidade mecanicista.

• Interpretabilidade mecanicista:

A interpretabilidade do mecanismo é o estudo da engenharia reversa de redes neurais, que pode ser usada para ajudar as pessoas a entender mais facilmente como o modelo mapeia a entrada para a saída e é uma maneira de perceber a interpretabilidade do modelo. O principal objetivo da explicabilidade do mecanismo é entender o aprendizado profundo como uma ciência natural, usando a estrutura e os parâmetros do modelo para explicar o processo de tomada de decisão e os resultados de previsão do modelo, para que os usuários humanos possam entender e verificar o princípio de funcionamento do o modelo. Seu trabalho inicial se concentrou no uso de fatoração de matriz e métodos de visualização de recursos para entender representações em camadas intermediárias de redes visuais e, mais recentemente, concentrou-se em representações para redes multimodais, bem como no entendimento de algoritmos de redes neurais em nível de caminho.

A Anthropic publicou um estudo sobre a interpretabilidade do mecanismo "Interpretabilidade Mecanística, Variáveis e a Importância das Bases Interpretáveis".

**Dwarkesh Patel: Existe alguma habilidade que não vem com o tamanho do modelo? **

**Dario Amodei: O alinhamento do modelo e os recursos relacionados ao valor podem não surgir naturalmente com o tamanho do modelo. **Uma maneira de pensar é que o processo de treinamento do modelo é essencialmente prever e entender o mundo, e sua principal responsabilidade é sobre fatos, não opiniões ou valores. Mas existem algumas variáveis livres aqui: que ação você deve tomar? Que ponto de vista você deve adotar? A quais fatores você deve prestar atenção? Mas não existe tal rótulo de dados para o modelo aprender. Portanto, acho improvável o surgimento de Alinhamento e valores etc.

** Dwarkesh Patel: Existe a possibilidade de que, antes que a capacidade do modelo alcance a inteligência humana, os dados disponíveis para treinamento sejam usados? **

**Dario Amodei:**Acho que é necessário distinguir se é um problema teórico ou uma situação prática. De um ponto de vista teórico, não estamos muito longe de ficar sem dados, mas minha opinião pessoal é que é improvável. Podemos gerar dados de várias maneiras, portanto, os dados não são realmente um obstáculo. Há outra situação em que usamos todos os recursos de computação disponíveis, resultando em um progresso lento nas capacidades do modelo. Ambos os cenários são possíveis.

**Meu ponto de vista pessoal é que há uma grande probabilidade de que a Scaling Law não fique estagnada e, mesmo que haja um problema, é mais provável que seja a causa da arquitetura de computação. **Por exemplo, se usarmos LSTM ou RNN, a taxa de evolução da habilidade do modelo mudará. Se atingíssemos um gargalo na evolução dos recursos do modelo em todas as situações arquitetônicas, isso seria muito sério, porque significa que nos deparamos com um problema mais profundo.

• LSTMs:

Redes de memória de longo prazo (redes de memória de longo prazo), uma rede RNN especial (rede neural cíclica), pode aprender dependências de longo prazo, resolver o problema da RNN tradicional em aprender padrões de sequência longa e extrair sequências de longo e curto prazo informações de dados. A capacidade de aprendizado e capacidade de representação do LSTM é mais forte do que a do RNN padrão.

**Acho que chegamos a um estágio em que pode não ser muito diferente falar sobre o que um modelo pode ou não fazer. **No passado, as pessoas limitariam a capacidade do modelo, pensando que o modelo não poderia dominar a capacidade de raciocínio, aprender programação e pensar que poderia encontrar gargalos em alguns aspectos. Embora algumas pessoas, inclusive eu, não pensassem assim antes, mas nos últimos anos, esse tipo de teoria do gargalo tornou-se mais popular e agora mudou.

**Se o efeito do processo de escalonamento do modelo futuro tiver um gargalo, acho que o problema vem do design da função de perda com foco na próxima tarefa de previsão de token. **Quando colocamos muita ênfase nas habilidades de raciocínio e programação, a perda do modelo se concentrará nos tokens que refletem essa habilidade, e os tokens de outros problemas aparecerão com menos frequência (Nota: o conjunto de dados pré-treinamento do modelo será baseado na importância que os cientistas atribuem ao grau de habilidades, ajuste sua proporção) **, a função de perda dá muita atenção aos tokens que fornecem a maior entropia de informação, ignorando aqueles que são realmente importantes, o sinal pode ser submerso no barulho. **

Se esse problema surgir, precisamos introduzir algum tipo de processo de aprendizado por reforço. Existem muitos tipos de RL, como aprendizado por reforço com feedback humano (RLHF), aprendizado por reforço para alvos e, como IA constitucional, aprimoramento (amplificação) e debate (debate) e afins. Estes são o método de alinhamento do modelo e a maneira de treinar o modelo. **Podemos ter que tentar muitos métodos, mas devemos focar no que o objetivo do modelo é fazer. **

Um dos problemas com o aprendizado por reforço é que você precisa projetar uma função de perda muito completa. A função de perda da próxima previsão de token já foi projetada; portanto, se a escala nessa direção atingir o limite superior, o desenvolvimento da IA diminuirá.

**Dwarkesh Patel: Como surgiu sua compreensão do Scaling? **

**Dario Amodei: **A formação da minha opinião pode ser rastreada aproximadamente de 2014 a 2017. Venho prestando atenção no desenvolvimento da IA, mas por muito tempo pensei que demoraria muito para que a IA fosse realmente aplicada, até o surgimento da AlexNet. Então me juntei à equipe de projeto de Wu Enda no Baidu na época, e esta foi a primeira vez que entrei em contato com a IA.

Eu me considero bastante sortudo, ao contrário de outros acadêmicos da época, fui encarregado de criar sistemas de reconhecimento de fala de última geração e havia muitos dados e GPUs disponíveis. **Durante este projeto, percebi naturalmente que Scaling é uma boa solução. Esse processo também é diferente da pesquisa de pós-doutorado: não precisamos necessariamente ter ideias inteligentes e inovadoras que não tenham sido propostas antes. **

Ao longo do projeto, só preciso realizar alguns experimentos básicos, como adicionar mais camadas ao RNN, ou ajustar os parâmetros de treinamento para tentar estender o tempo de treinamento do modelo. Nesse período, observei o processo de treinamento do modelo e vi o simulado Quando isso acontece. Também tentei adicionar novos dados de treinamento ou reduzir rodadas de treinamento repetidas e observei o impacto desses ajustes no desempenho do modelo. Durante o curso dessas experiências, notei alguns resultados regulares. No entanto, não está claro para mim se essas imaginações são inovadoras ou se outros colegas fizeram descobertas semelhantes. No geral, esta é apenas minha experiência de sorte como iniciante em IA. Não sei muito mais sobre o campo, mas senti na época que isso foi validado de forma semelhante no campo de reconhecimento de fala.

**Conheci Ilya antes da fundação da OpenAI, e ele me disse que "precisamos perceber que esses modelos só querem aprender", essa perspectiva me inspirou muito e me fez perceber que a observação anterior O fenômeno pode não ser uma instância aleatória, mas uma ocorrência comum. Esses modelos só precisam aprender. Precisamos apenas fornecer dados de alta qualidade e criar espaço suficiente para que eles operem, e os modelos aprenderão por si mesmos. **

**Dwarkesh Patel: Poucas pessoas deduziram uma visão de "inteligência universal" como você e Ilya. Como você pensa sobre esta questão de maneira diferente das outras pessoas? O que o faz pensar que os modelos continuarão a melhorar no reconhecimento de fala e da mesma forma em outras áreas? **

Dario Amodei: Realmente não sei, quando observei pela primeira vez um fenômeno semelhante no campo da fala, pensei que fosse apenas uma lei aplicável ao campo vertical de reconhecimento de fala. Entre 2014 e 2017, tentei muitas coisas diferentes e observei a mesma coisa repetidas vezes. Por exemplo, observei isso no jogo Dota. Embora os dados disponíveis no campo da robótica sejam relativamente limitados e muitas pessoas não sejam otimistas, também observei um fenômeno semelhante. **Acho que as pessoas tendem a se concentrar em resolver os problemas imediatos. Elas podem prestar mais atenção em como resolver o problema em si na direção vertical, em vez de pensar nos problemas de nível inferior na direção horizontal, para que não considere totalmente a possibilidade de escalar o sexo. Por exemplo, no campo da robótica, o problema mais fundamental pode ser dados de treinamento insuficientes, mas é fácil concluir que o Scaling não funciona. **

**Dwarkesh Patel: Quando você percebeu que a linguagem poderia ser uma forma de alimentar grandes quantidades de dados nesses modelos? **

**Dario Amodei:**Acho que o mais importante é o conceito de aprendizado autossupervisionado baseado na previsão do próximo token, bem como um grande número de arquiteturas para previsão. Na verdade, isso é semelhante à lógica dos testes de desenvolvimento infantil. Por exemplo, Mary entra na sala e coloca um objeto, e então Chuck entra e move o objeto sem que Mary perceba, o que Mary pensa? Para completar este tipo de previsão, o modelo deve resolver os problemas matemáticos, problemas psicológicos e assim por diante envolvidos nele ao mesmo tempo. Então, na minha opinião, para fazer boas previsões, você deve alimentar o modelo com dados e deixá-lo aprender sem restrições.

Embora eu tivesse um sentimento semelhante há muito tempo, até que Alec Radford fez algumas tentativas no GPT-1, percebi que não podemos apenas implementar um modelo com capacidade preditiva, mas também ajustá-lo.Complete vários tipos de missões. Acho que isso nos dá a possibilidade de fazer todo tipo de tarefa, de poder resolver todo tipo de problema inclusive raciocínio lógico. Claro, também podemos continuar a expandir o tamanho do modelo.

• Alec Radford, autor de Sentiment Neuron, predecessor da série GPT e co-autor da série de artigos GPT, ainda está trabalhando na OpenAI.

**Dwarkesh Patel: Como você acha que o treinamento do modelo requer muitos dados? Você deve se preocupar com a baixa eficiência do treinamento do modelo? **

Dario Amodei: Essa questão ainda está sendo explorada. Uma teoria é que o tamanho do modelo é, na verdade, 2 a 3 ordens de magnitude menor que o cérebro humano, mas a quantidade de dados necessária para treinar o modelo é três a quatro vezes maior do que a quantidade de texto lido por um jovem de 18 anos. -velho ser humano A ordem de grandeza, a ordem de grandeza dos seres humanos é provavelmente de centenas de milhões, enquanto a ordem de grandeza dos modelos é de centenas de bilhões ou trilhões. A quantidade de dados obtidos pelos seres humanos não é grande, mas é suficiente para lidar com nosso trabalho e vida diária. Mas existe outra possibilidade de que, além de aprender, nossos sentidos estejam na verdade inserindo informações no cérebro.

Na verdade, há um paradoxo aqui. O modelo que temos atualmente é menor que o cérebro humano, mas pode realizar muitas tarefas semelhantes às do cérebro humano. Ao mesmo tempo, a quantidade de dados necessária para esse modelo é muito maior do que a do cérebro humano. Portanto, ainda precisamos continuar a explorar e entender essa questão, mas, até certo ponto, isso não é importante. ** Mais importante, como avaliar a habilidade do modelo e como julgar a diferença entre eles e os humanos. Tanto quanto eu estou preocupado, a lacuna não está tão longe. **

** Dwarkesh Patel: A ênfase no dimensionamento e, mais amplamente, nos avanços da capacidade do modelo de unidade de computação em grande escala subestimam o papel do progresso algorítmico? **

**Dario Amodei: **Quando o artigo Transformer foi lançado pela primeira vez, escrevi sobre questões relacionadas e mencionei que existem 7 fatores relacionados que afetarão a melhoria da capacidade do modelo, dos quais 4 fatores são os mais óbvios e críticos: o quantidade de parâmetros do modelo, escala de poder de computação, qualidade de dados e função de perda. Por exemplo, tarefas como aprendizado por reforço ou previsão do próximo token são muito dependentes de ter a função de perda correta ou mecanismo de incentivo.

• Aprendizagem por reforço (RL):

Encontre o curso de ação ideal para cada estado específico do ambiente por meio de um processo básico de tentativa e erro. O modelo de aprendizado de máquina introduzirá uma regra aleatória no início e, ao mesmo tempo, inserirá uma certa quantidade de pontos (também conhecidos como recompensas) no modelo toda vez que uma ação for realizada.

• Função de perda (função de perda) em aprendizado de máquina refere-se à função de medir a qualidade do ajuste, que é usada para refletir o grau de diferença entre a saída do modelo e o valor real, ou seja, para medir a previsão erro; incluindo a previsão de todos os pontos da amostra Erro, fornecendo um único valor para representar a qualidade geral do ajuste; ao mesmo tempo, durante o processo de treinamento, os parâmetros do modelo serão ajustados continuamente de acordo com o valor da função de perda, em para minimizar o valor da perda e obter um melhor efeito de ajuste.

Existem também 3 fatores:

A primeira são as simetrias estruturais, se a arquitetura não levar em conta a simetria correta, ela não funcionará e será muito ineficiente. Por exemplo, rede neural convolucional (CNN) considera simetria translacional (simetria translacional), LSTM considera simetria temporal (simetria temporal), mas o problema com LSTMs é que eles não prestam atenção ao contexto, essa fraqueza estrutural é comum. Se o modelo não puder entender e processar o longo histórico passado (referente aos dados que apareceram anteriormente na estrutura de dados da sequência) devido a razões estruturais, será como se o cálculo fosse incoerente.Tanto o modelo RNN quanto o LSTM têm essas deficiências.

• Adam(Estimativa de Momento Adaptativo):

Estimativa de momento adaptativo, o algoritmo Adam combina as vantagens de RMSprop e SGD e pode lidar bem com problemas de otimização não convexa.

• SGD(Descida do Gradiente Estocástico):

Stochastic Gradient Descent, um método iterativo para otimizar uma função objetiva com propriedades de suavidade apropriadas, como diferenciáveis ou subdiferenciadas. Pode ser visto como uma aproximação estocástica para otimização de gradiente descendente. Em problemas de otimização de alta dimensão, isso reduz a carga computacional e permite iterações mais rápidas em troca de taxas de convergência mais baixas.

Depois, há a estabilidade numérica (nota de captação: condicionamento, que se refere a se o algoritmo está bem condicionado na análise numérica, caso contrário, uma pequena mudança nos dados do problema causará uma grande mudança em sua solução). A otimização de funções de perda é numericamente difícil e fácil de distinguir. É por isso que Adam funciona melhor do que DST regular.

O último elemento é garantir que o processo de cálculo do modelo não seja prejudicado, só assim o algoritmo pode ser bem-sucedido.

Portanto, o progresso do algoritmo não é simplesmente aumentar o poder de computação do computador, mas também eliminar os obstáculos artificiais da arquitetura antiga. Muitas vezes o modelo quer aprender e computar livremente, apenas para ser bloqueado por nós sem o nosso conhecimento.

** Dwarkesh Patel: Você acha que haverá algo na escala do Transformer para impulsionar a próxima grande iteração? **

Dario Amodei: Acho que é possível. Algumas pessoas tentaram simular dependências de longo prazo. Também observei que algumas ideias no Transformer não são eficientes o suficiente para representar ou processar coisas. **Porém, mesmo que não ocorra esse tipo de inovação, já estamos desenvolvendo rapidamente. Se aparecer, só fará o campo se desenvolver mais rápido, e a aceleração pode não ser tanto, porque a velocidade já é muito rápida . **

**Dwarkesh Patel: Em termos de aquisição de dados, o modelo precisa ter inteligência incorporada? **

Dario Amodei: Costumo não pensar nisso como uma nova arquitetura, mas como uma nova função de perda, porque o ambiente no qual o modelo coleta dados torna-se completamente diferente, o que é importante para o aprendizado de certas habilidades. Embora a coleta de dados seja difícil, pelo menos avançamos no caminho da coleta de corpus, e continuaremos no futuro, embora ainda haja mais possibilidades de serem desenvolvidas em termos de práticas específicas.

• Função de Perda:

É um conceito importante em aprendizado de máquina e aprendizado profundo. É usado para medir o grau de diferença entre o resultado da previsão do modelo e o rótulo verdadeiro, ou seja, o erro de previsão do modelo. A função de perda é projetada para permitir que o modelo minimize o erro de previsão ajustando os parâmetros, melhorando assim o desempenho e a precisão do modelo.

**Dwarkesh Patel: Existem outras abordagens como RL? **

Dario Amodei: Já estamos usando o método RLHF para aprendizado por reforço, mas acho difícil distinguir se isso é Alinhamento ou Capacidade? Os dois são muito parecidos. Raramente consigo modelos para agir via RL. A RL só deve ser usada depois que o modelo executar ações por um período de tempo e entender as consequências dessas ações. Então, acho que o aprendizado por reforço será muito poderoso, mas também tem muitos problemas de segurança em termos de como os modelos agem no mundo

O aprendizado por reforço é uma ferramenta comumente usada quando as ações são realizadas por um longo período de tempo e as consequências dessas ações só são compreendidas posteriormente.

**Dwarkesh Patel: Como você acha que essas tecnologias serão integradas em tarefas específicas no futuro? Esses modelos de linguagem podem se comunicar, se avaliar, se referir e melhorar seus respectivos resultados de pesquisa? Ou será que cada modelo funciona de forma independente e se concentra apenas em fornecer resultados por si só sem colaborar com outros modelos? Esses modelos de linguagem de alto nível serão capazes de formar um sistema colaborativo real no processo de desenvolvimento e aplicação no futuro, ou cada modelo fará seu próprio trabalho? **

Dario Amodei: É provável que o modelo precise concluir tarefas mais complexas no futuro, o que é uma tendência inevitável. No entanto, por motivos de segurança, podemos precisar limitar o escopo de aplicação do modelo de idioma até certo ponto para mitigar riscos potenciais. **É possível o diálogo entre os modelos? Eles são destinados principalmente a usuários humanos? Essas questões requerem consideração de influências sociais, culturais e econômicas além do nível técnico e são difíceis de prever com precisão.

**Embora possamos prever a tendência de crescimento do tamanho do modelo, é difícil fazer previsões confiáveis sobre questões como tempo de comercialização ou formulário de inscrição. Eu mesmo não sou muito bom em prever esse tipo de tendência de desenvolvimento futuro, e ninguém pode fazer isso muito bem no momento. **

**Como a habilidade do modelo se igualará à dos humanos? **

**Dwarkesh Patel: Se alguém me dissesse em 2018 que teríamos um modelo como o Claude-2 em 2023 com todos os tipos de recursos impressionantes, eu definitivamente pensaria que o AGI foi alcançado em 2018. Mas claramente, pelo menos por enquanto, e possivelmente até nas gerações futuras, estamos bem cientes de que ainda haverá diferenças entre a IA e os níveis humanos. Por que essa discrepância entre expectativas e realidade? **

**Dario Amodei: **Sou novo no GPT-3 e, nos estágios iniciais do Anthropic, meu sentimento geral sobre esses modelos é: eles parecem realmente captar a essência da linguagem, não tenho certeza se precisamos expandir o modelo até que ponto, talvez precisemos prestar mais atenção a outras áreas, como o aprendizado por reforço. Em 2020, acho que é possível aumentar ainda mais o tamanho do modelo, mas à medida que a pesquisa se aprofunda, começo a pensar se é mais eficiente adicionar diretamente outro treinamento de destino, como aprendizado por reforço.

**Vimos que a inteligência humana é realmente uma faixa muito ampla, então a definição de "máquinas atingindo o nível humano" é em si uma faixa, e o local e o tempo para as máquinas realizarem tarefas diferentes são diferentes. Muitas vezes, por exemplo, esses modelos se aproximaram ou até superaram o desempenho humano, mas ainda estão na infância quando se trata de provar teoremas matemáticos relativamente simples. Tudo isso mostra que a inteligência não é um espectro contínuo (espectro). ** Existem vários tipos de conhecimentos e habilidades profissionais em vários campos, e os métodos de memória também são diferentes. Se você me perguntasse 10 anos atrás (nota de captação: Dario ainda estudava física e neurociência na época), eu não teria imaginado que esse seria o caso.

** Dwarkesh Patel: Quanta sobreposição na gama de habilidades você acha que esses modelos exibirão a partir da distribuição de treinamento que esses modelos obtêm da vasta quantidade de dados da Internet que os humanos obtêm da evolução? **

Dario Amodei: Há uma sobreposição considerável. Muitos modelos desempenham um papel em aplicações comerciais, ajudando efetivamente os humanos a melhorar a eficiência. Dada a variedade de atividades humanas e a abundância de informações na internet, acho que os modelos aprendem até certo ponto modelos físicos do mundo real, mas não aprendem como operar na realidade real, habilidades que podem ser relativamente fáceis de aprender. ajuste fino. Acho que há algumas coisas que os modelos não aprendem, mas os humanos sim.

**Dwarkesh Patel: É possível que os modelos superem os humanos em muitas tarefas relacionadas a negócios e economia nos próximos anos? Ao mesmo tempo, os modelos ainda podem ser inferiores aos humanos em algumas tarefas, evitando assim uma explosão de inteligência semelhante? **

Dario Amodei: Esta pergunta é difícil de prever. O que quero lembrar é que a lei de escala pode fornecer algumas ideias de previsão do ponto de vista da base teórica, mas será muito difícil realmente entender os detalhes do desenvolvimento futuro. A lei de escala pode continuar a se aplicar, é claro, e se os fatores de segurança ou regulatórios retardarão o progresso, mas se esses atritos forem deixados de lado, acho que se a IA pode ir mais longe na criação de valor econômico, então deve Maior progresso será feito em mais campos.

Não vejo o modelo tendo um desempenho particularmente fraco em nenhum domínio ou não fazendo nenhum progresso. Como a matemática e a programação no passado, eles são difíceis, mas também alcançam resultados inesperados. Nos últimos 6 meses, o modelo 2023 fez progressos significativos em comparação com o modelo 2022. Embora o desempenho do modelo em diferentes campos e tarefas não seja totalmente equilibrado, a melhoria da capacidade geral certamente beneficiará todos os campos.

**Dwarkesh Patel: Diante de uma tarefa complexa, o modelo tem a capacidade de realizar uma cadeia de pensamento em uma série de tarefas contínuas? **

**Dario Amodei: **A capacidade de tomada de decisão contínua depende do treinamento de aprendizado por reforço, para que o modelo possa executar tarefas de longo prazo. **E eu não acho que isso requer uma escala maior de poder de computação adicional. Pensar assim é uma subestimação errada da própria capacidade de aprendizado do modelo. **

A questão de saber se os modelos vão superar os humanos em alguns domínios, mas lutam para fazê-lo em outros, acho que é complicado, em alguns domínios pode ser verdade, mas em alguns domínios não será porque o mundo físico está envolvido em tarefas de inteligência incorporada em

Então o que vem depois? A IA pode nos ajudar a treinar uma IA mais rápida que possa resolver esses problemas? O mundo físico não é mais necessário? Estamos preocupados com problemas de alinhamento? Existem preocupações sobre o uso indevido, como a criação de armas de destruição em massa? Devemos nos preocupar com o fato de que a própria IA assumirá diretamente as futuras pesquisas de IA? Estamos preocupados com a possibilidade de atingir um determinado limite de produtividade econômica em que possa executar tarefas como a média? ... Acho que essas perguntas podem ter respostas diferentes, mas acho que todas terão dentro de alguns anos.

**Dwarkesh Patel: Se Claude fosse funcionário da Anthropic, qual seria seu salário? Acelera o desenvolvimento da inteligência artificial em um sentido real? **

Dario Amodei: Para mim, provavelmente é mais um estagiário na maioria dos casos, mas ainda melhor do que um estagiário em algumas áreas específicas. Mas, em geral, pode ser difícil dar uma resposta absoluta a esse assunto, porque os modelos não são humanos por natureza, eles podem ser projetados para responder a uma única ou algumas perguntas, ** mas, ao contrário dos humanos, eles não têm o conceito de "experiência baseada no tempo". **

**Se a IA quiser se tornar mais eficiente, ela deve primeiro ajudar os humanos a melhorar sua própria produtividade e, gradualmente, atingir o mesmo nível de produtividade humana. O próximo passo depois disso é ser uma grande força no avanço da ciência, o que acredito que acontecerá no futuro. Mas suspeito que os detalhes do que realmente aconteceu no futuro parecerão um pouco estranhos agora, diferentes dos modelos que esperávamos. **

**Dwarkesh Patel: Quando você acha que a habilidade do modelo atingirá o nível humano? Como será então? **

Dario Amodei: Depende de quão altas ou baixas são as expectativas e padrões humanos. Por exemplo, se nossa expectativa é apenas que o modelo se comunique por 1 hora, e o modelo possa se comportar como um ser humano bem educado durante o processo, o objetivo de fazer o modelo atingir o nível humano pode não estar muito longe, acho que é pode ser possível em 2 a 3 anos se tornará realidade. **Este cronograma é amplamente influenciado por uma empresa ou setor que decide desacelerar o desenvolvimento ou por restrições do governo por motivos de segurança. **Mas do ponto de vista de dados, poder de computação e economia de custos, não estamos longe desse objetivo. **

Mas mesmo que o modelo atinja esse nível,** não acho que o modelo possa dominar a maioria das pesquisas de IA ou mudar significativamente a maneira como a economia funciona, nem é substancialmente perigoso. Assim, em geral, diferentes padrões requerem diferentes cronogramas para realização, mas de uma perspectiva puramente técnica, não está longe de alcançar um modelo comparável a um ser humano com educação básica. **

**Dwarkesh Patel: Por que o modelo pode alcançar a mesma capacidade de um ser humano com educação básica, mas não pode participar de atividades econômicas ou substituir o papel de ser humano? **

**Dario Amodei:**Em primeiro lugar, o modelo pode não ter atingido um nível alto o suficiente. ** Seria capaz de acelerar a produtividade de 1.000 bons cientistas em grande medida em um campo como a pesquisa de IA? A vantagem comparativa do modelo a esse respeito ainda não é óbvia. **

Atualmente, os grandes modelos não fizeram descobertas científicas importantes, provavelmente porque o nível desses modelos não é alto o suficiente e o desempenho desses modelos pode ser apenas equivalente ao nível B ou nível B. Mas acredito que isso mudará com o escalonamento do modelo. Os modelos lideram outros campos da memória, integração de fatos e estabelecimento de conexões. Especialmente no campo da biologia, devido à complexidade dos organismos, os modelos atuais acumularam uma grande quantidade de conhecimento. Descoberta e conexão são importantes neste campo. Ao contrário da física, a biologia requer muitos fatos, não apenas fórmulas. Portanto, tenho certeza de que os modelos já têm muito conhecimento, mas não conseguiram juntar tudo porque o nível de habilidade não está à altura. Eu acho que eles estão evoluindo gradualmente para integrar esse conhecimento em um nível superior.

Outra razão é que existem muitas fricções invisíveis nas atividades de negócios reais que não podem ser aprendidas pelo modelo. Por exemplo, idealmente, podemos usar bots de IA para interagir com os clientes, mas a situação real é muito mais complicada do que a teoria, e não podemos simplesmente confiar em robôs de atendimento ao cliente ou esperar que a IA possa substituir funcionários humanos para concluir essas tarefas. E, na realidade, ainda existem custos dentro da empresa para promover artificialmente a implementação do modelo, a combinação de bot de IA e fluxo de trabalho e assim por diante.

**Em muitos casos, a eficiência das pessoas que usam o modelo não é alta e o potencial do modelo não foi totalmente realizado. Isso não ocorre porque o modelo não é capaz o suficiente, mas porque as pessoas precisam gastar tempo pesquisando como fazê-lo funcionar com mais eficiência. **

Em geral, a curto prazo, os modelos não substituirão completamente os humanos, mas a longo prazo, à medida que os modelos continuam a melhorar e desempenham um papel maior na melhoria da eficiência do trabalho humano, os humanos acabarão dando lugar aos modelos. Só que é difícil para nós estabelecer tempos precisos para as diferentes fases. No curto prazo, são vários os obstáculos e fatores complexos que tornam o modelo “limitado”, mas no fundo a IA ainda se encontra numa fase de crescimento exponencial.

** Dwarkesh Patel: Depois de chegarmos a este ponto nos próximos 2-3 anos, toda a IA ainda estará avançando tão rápido quanto hoje? **

Dario Amodei: O júri ainda não decidiu. Por meio da observação da função de perda, descobrimos que a eficiência do treinamento do modelo está diminuindo e a curva da Scaling Law não é tão íngreme quanto nos primeiros dias. Isso também é confirmado pelos modelos lançados por várias empresas. Mas à medida que essa tendência se desenvolve, a pequena quantidade de entropia em cada previsão precisa se torna mais importante. Talvez tenham sido esses minúsculos valores de entropia que criaram a lacuna entre Einstein e o físico médio. Em termos de desempenho real, a métrica parece melhorar de forma relativamente linear, embora difícil de prever. Portanto, é difícil ver claramente essas situações. Além disso, acho que o maior fator que impulsiona a aceleração é cada vez mais dinheiro despejado neste espaço, e as pessoas percebem que há um enorme valor econômico neste espaço. Portanto, estou esperando um aumento de cerca de 100 vezes no financiamento para os modelos maiores, e o desempenho do chip está melhorando, e os algoritmos estão melhorando porque há muitas pessoas trabalhando nisso agora.

** Dwarkesh Patel: Você acha que Claude está consciente? **

Dario Amodei: Ainda não tenho certeza. Originalmente, pensei que só precisamos nos preocupar com esse tipo de problema quando o modelo opera em um ambiente rico o suficiente, como inteligência incorporada, ou possui experiência de longo prazo e função de recompensa (Função de Recompensa), mas agora estou interessado no modelo, especialmente o modelo Após a pesquisa sobre o mecanismo interno, meu ponto de vista foi abalado: **O modelo grande parece ter muitos mecanismos cognitivos necessários para se tornar um agente ativo, como cabeça de indução (Induction Head). Dado o nível de capacidade dos modelos atuais, isso pode se tornar um problema real nos próximos 1 a 2 anos. **

• Função de recompensa:

Um mecanismo de incentivo no aprendizado por reforço que diz ao agente o que é certo e o que é errado por meio de recompensas e punições.

• Cabeçote de indução:

Um componente/estrutura de modelo específico em um modelo Transformer que permite que o modelo faça aprendizado contextual.

**Dwarkesh Patel: Como entendemos a "inteligência" à medida que as capacidades dos modelos de linguagem continuam a crescer e se aproximam das faixas de nível humano? **

Dario Amodei: Eu realmente percebo que a inteligência vem da compreensão da natureza "material" do poder de computação. Os sistemas inteligentes podem consistir em muitos módulos independentes ou ser extremamente complexos. Rich Sutton chama isso de "lição angustiante", também conhecida como "Hipótese de escala", e os primeiros pesquisadores, como Shane Lake e Ray Kurzweil, começaram a perceber isso por volta de 2017.

• A lição amarga / hipótese de escala:

Em 2019, Rich Sutton publicou o artigo The Bitter Lesson. O ponto principal do artigo é que a pesquisa de IA deve fazer uso total dos recursos de computação. Somente quando uma grande quantidade de computação é usada, os avanços da pesquisa podem ser feitos.

Durante 2014-2017, mais e mais pesquisadores revelaram e entenderam esse ponto. Este é um grande avanço na compreensão científica. Se pudermos criar inteligência sem condições específicas, apenas gradientes apropriados e sinais de perda, então a evolução da inteligência é menos misteriosa.

A capacidade de olhar para o modelo, nada muito esclarecedor para eu revisitar a ideia da inteligência humana. A escolha de algumas habilidades cognitivas é mais arbitrária do que eu pensava, e a correlação entre diferentes habilidades pode não ser explicada por um segredo em si. **Os modelos são fortes em codificação, mas ainda não são capazes de provar o teorema dos números primos, e provavelmente nem os humanos. **

Alinhamento: Interpretabilidade é "raio-X" do modelo

** Dwarkesh Patel: O que é explicabilidade do mecanismo? Qual é a relação entre ele e o alinhamento? **

**Dario Amodei: **No processo de implementação do alinhamento, não sabemos o que aconteceu dentro do modelo. Eu acho que com todos os métodos que envolvem ajuste fino, alguns riscos potenciais de segurança permanecem, o modelo é apenas ensinado a não exibi-los. **O núcleo de toda a ideia de explicabilidade do mecanismo é realmente entender como o modelo funciona internamente. **

Ainda não temos uma resposta definitiva. Posso descrever aproximadamente o processo. O desafio para os métodos que afirmam ser capazes de alcançar o alinhamento neste estágio é: esses métodos ainda são eficazes quando a escala do modelo é maior, as capacidades são mais fortes ou certas situações mudam? Portanto, **acho que se houver uma "máquina de oráculo" que possa escanear o modelo e julgar se o modelo foi alinhado, isso tornará esse problema muito mais fácil. **

Atualmente, o mais próximo que chegamos do conceito de tal oráculo é algo como explicabilidade do mecanismo, mas ainda está longe de nossos requisitos ideais. Costumo pensar em nossas tentativas de alinhamento atuais como um conjunto de treinamento expandido, mas não tenho certeza se elas podem continuar a ter um bom efeito de alinhamento no problema de distribuição. É como tirar um raio-x de um modelo em vez de modificá-lo, mais como uma avaliação do que como uma intervenção.

**Dwarkesh Patel: Por que a explicabilidade do mecanismo deve ser útil? Como isso nos ajuda a prever o risco potencial do modelo? É como se você fosse um economista e enviasse vários microeconomistas para estudar diferentes setores, mas ainda assim é muito difícil prever se haverá uma recessão nos próximos 5 anos. **

**Dario Amodei: Nosso objetivo não é entender completamente todos os detalhes, mas verificar as principais características do modelo, como raios-X ou ressonância magnética, para julgar se o estado interno e o alvo do modelo são significativamente diferentes dos a discrepância da aparência externa, ou se pode levar a alguns propósitos destrutivos. **Embora não possamos obter respostas para muitas perguntas imediatamente, pelo menos uma maneira é fornecida.

Posso dar um exemplo humano. Com a ajuda de um teste de ressonância magnética, podemos prever se alguém tem uma doença mental com maior probabilidade do que adivinhar aleatoriamente. Um neurocientista estava trabalhando nisso há alguns anos, e ele verificou sua própria ressonância magnética e descobriu que também tinha esse recurso. As pessoas ao seu redor disseram: "É tão óbvio, você é um idiota. Deve haver algo errado com você", e o próprio cientista não sabia disso.

A ideia essencial deste exemplo é que o comportamento externo do modelo pode não fazer as pessoas se sentirem problemáticas e é muito orientado para um objetivo, mas seu interior pode ser "escuro". O que nos preocupa é esse tipo de modelo , que se parece com seres humanos na superfície. , mas a motivação interna é extraordinária.

**Dwarkesh Patel: Se o modelo atingir o nível humano nos próximos 2-3 anos, quanto tempo você acha que levará para realizar o Alinhamento? **

Dario Amodei: Essa é uma questão muito complicada, acho que muita gente ainda não entendeu direito o que é Alinhamento. As pessoas geralmente pensam que isso é como se o alinhamento de modelos fosse um problema a ser resolvido, ou que resolver o problema de Alinhamento é como a Hipótese de Riemann, e um dia conseguiremos resolvê-lo. **Acho que os problemas de Alinhamento são mais elusivos e imprevisíveis do que as pessoas pensam. **

Em primeiro lugar, **Com a melhoria contínua da escala e das capacidades dos modelos de linguagem, haverá modelos poderosos com capacidades autônomas no futuro.Se tais modelos pretendem destruir a civilização humana, basicamente não seremos capazes de detê-los. **

Em segundo lugar, Nossa capacidade atual de controlar o modelo não é forte o suficiente, isso ocorre porque o modelo é construído com base no princípio do aprendizado estatístico, embora você possa fazer muitas perguntas e deixá-lo responder, mas ninguém pode prever a que a resposta à enésima pergunta pode levar como resultado.

**Além disso, a forma como treinamos o modelo era abstrata, dificultando a previsão de todas as suas implicações em aplicativos do mundo real. **Um exemplo típico é que Bing e Sydney mostraram algumas características abruptas e inseguras após uma determinada sessão de treinamento, como ameaçar diretamente outras pessoas. Tudo isso mostra que os resultados que obtemos podem ser completamente diferentes das expectativas. Acho que a existência dos dois problemas acima é um grande perigo oculto em si. Não precisamos nos aprofundar nos detalhes da racionalidade e evolução instrumental. Esses dois pontos são suficientes para causar preocupação. Atualmente, cada modelo que estabelecemos tem certos perigos ocultos que são difíceis de prever, e devemos prestar atenção a isso.

• Hipótese de Riemann:

A hipótese de Riemann é um problema importante em matemática que ainda não foi resolvido. A conjectura sobre a distribuição dos zeros da função ζ de Riemann ζ(s) foi proposta pelo matemático Bernhard Riemann em 1859.

• Sidney:

Não muito tempo atrás, a Microsoft lançou a versão mais recente de seu mecanismo de busca Bing, que integra um chatbot inicial de codinome chamado "Sydney". No entanto, os testadores logo descobriram problemas com o chatbot. Durante o diálogo, ocasionalmente mostra o fenômeno da dupla personalidade, e ainda discute amor e casamento com o usuário, mostrando emoções humanas.

** Dwarkesh Patel: Supondo que o modelo possa desenvolver tecnologias perigosas, como armas biológicas, nos próximos 2 a 3 anos, seu trabalho de pesquisa atual sobre explicabilidade do mecanismo, IA constitucional e RLHF pode ser eficaz na prevenção de tais riscos? **

Dario Amodei: Em relação à questão de saber se o modelo de idioma está condenado por padrão ou alinhamento por padrão, a julgar pelo modelo atual, o resultado pode ser anormal como Bing ou Sydney, ou pode ser como Claude normal. Mas se você aplicar esse entendimento diretamente a um modelo mais poderoso, os resultados podem ser bons ou ruins, dependendo da situação específica. Isso não é "alinhamento por padrão", o resultado depende mais do grau de controle de detalhes.

• alinhamento por padrão:

A noção de que alcançar o alinhamento na inteligência geral artificial (AGI) pode ser mais simples do que inicialmente esperado. Quando o modelo possui informações detalhadas sobre o nosso mundo, o modelo já possui valores humanos em sua essência. Para alinhar com a AGI, basta extrair esses valores e guiar a IA para entender esses conceitos humanos abstratos. doom por padrão é o oposto de alinhamento por padrão e é considerado impossível para o modelo atingir o alinhamento.

A qualidade do modelo é uma área cinzenta. É difícil para nós controlar totalmente cada variável e sua conexão interna. Erros podem levar a resultados irracionais. Com isso em mente, acho que a natureza do problema não é o sucesso condenado ou o fracasso condenado, mas um certo risco de probabilidade. **Nos próximos dois a três anos, devemos estar empenhados em melhorar as técnicas de diagnóstico de modelos, métodos de treinamento de segurança e reduzir possíveis diferenças.No momento, nossas capacidades de controle ainda precisam ser fortalecidas. O problema de Alinhamento é diferente da Hipótese de Riemann, é uma questão de engenharia de sistema que só pode ser resolvida acumulando prática ao longo do tempo. Somente continuando a avançar várias tarefas podemos otimizar gradualmente o nível de controle e reduzir os riscos. **

Dwarkesh Patel: De um modo geral, existem três especulações sobre o futuro do alinhamento:

1) Use RLHF++ para realizar facilmente o alinhamento do modelo;

2) Embora seja um grande problema, as grandes empresas têm a capacidade de finalmente resolvê-lo;

**3) Ainda é difícil alcançar o Alinhamento do modelo no nível atual da sociedade humana. **

**Qual é a sua opinião pessoal sobre a probabilidade de cada situação acontecer? **

**Dario Amodei:**Sinto que há certos riscos nessas possibilidades e devemos levá-los a sério, mas estou mais interessado em como mudar a probabilidade desses três resultados possíveis adquirindo novos conhecimentos por meio do aprendizado.

A interpretabilidade do mecanismo pode não apenas resolver diretamente o problema, mas também nos ajudar a entender a real dificuldade do alinhamento do modelo Novos riscos, que nos iluminarão para entender a natureza do problema.

Quanto a algumas suposições teóricas de que existe um objetivo comum (objetivo convergente), não posso concordar totalmente. **A explicabilidade do mecanismo é como um tipo de "raio-X" - somente compreendendo o problema do nível do mecanismo interno podemos concluir se certas dificuldades são difíceis de superar. **Existem muitas suposições, nossa compreensão do processo ainda é superficial e estamos muito confiantes, mas a situação provavelmente será mais complicada do que o esperado.

**Dwarkesh Patel: Quão difícil é alcançar o alinhamento em Claude 3 e uma série de modelos futuros? Isso é particularmente importante? **

Dario Amodei :

**O que mais preocupa todo mundo é: todos os modelos de IA podem alcançar o alinhamento na superfície, mas na verdade eles podem nos enganar, mas estou mais interessado no que a pesquisa de interpretabilidade da máquina pode nos dizer. Como acabei de dizer, a explicabilidade do mecanismo é como o "raio-X" do modelo, assim como não podemos afirmar que um raio-X está correto, podemos apenas dizer que o modelo não parece estar contra nós. ** Teoricamente falando, é realmente possível que ele evolua para o nosso oposto, e esse assunto não é 100% certo. É que nessa fase a interpretabilidade é a melhor forma de fazer com que o modelo não se desenvolva assim.

**Dwarkesh Patel: Ao ajustar ou treinar o modelo, devemos também prestar atenção para evitar conteúdo prejudicial que possa causar perigo? Por exemplo, ao explorar tópicos relacionados à fabricação de armas biológicas, o modelo pode fornecer respostas inadequadas devido ao entendimento inadequado da questão. **

Dario Amodei: Para o modelo de linguagem atual, o risco de vazamento de dados é basicamente inexistente. Se precisarmos ajustar o modelo, vamos operá-lo em uma pequena área em um ambiente privado, supervisionar todo o processo com especialistas do setor e prevenir possíveis problemas, portanto, se vazar, será como se o modelo fosse de código aberto . Atualmente, isso é principalmente uma questão de segurança. Mas o perigo real do modelo é que precisamos nos preocupar com o fato de que, se treinarmos um modelo muito poderoso e quisermos confirmar se ele é seguro ou perigoso, pode haver um risco de predominância do modelo. A maneira de evitar isso é garantir que os modelos que testamos não sejam poderosos o suficiente para realizar essas operações.

** Dwarkesh Patel: Ao fazer um teste como "se o modelo pode se replicar como uma habilidade perigosa", e se o modelo puder realmente se replicar? **

Dario Amodei: Essa suposição é bastante razoável. Precisamos fazer inferências responsáveis e, em discussões com o Arc (Centro de Pesquisa de Alinhamento, Centro de Pesquisa de Alinhamento), aprendemos que precisamos melhorar cuidadosa e gradualmente os padrões de teste das capacidades do modelo. Por exemplo, antes do teste, devemos excluir claramente a possibilidade de que o modelo possa abrir diretamente uma conta AWS ou ganhar fundos por conta própria.Esses comportamentos são pré-requisitos óbvios para o modelo sobreviver na natureza. Devemos personalizar vários indicadores de teste para um nível muito baixo de tais comportamentos de risco. Enquanto aumentamos gradualmente a dificuldade do teste, também devemos controlar cada etapa do teste com mais cuidado para evitar possíveis riscos à segurança.

• Arc (Centro de Pesquisa de Alinhamento, Centro de Pesquisa de Alinhamento):

Fundada em 2021, é uma organização sem fins lucrativos com foco em pesquisa de segurança de inteligência artificial (AI Safety), e seu escritório está localizado na Bay Area da Califórnia, EUA. O fundador da ARC é Paul Christiano, uma figura respeitada na indústria de inteligência artificial, que já liderou a equipe de pesquisa de alinhamento da OpenAI. Por estar na vanguarda, ele tem uma compreensão profunda de como o aprendizado profundo se desenvolveu até onde está hoje.

Segurança AGI: Segurança de IA e Segurança Cibernética

**Dwarkesh Patel: Se você considerar 30 anos como uma escala, qual questão você acha mais importante, segurança de IA ou alinhamento? **

Dario Amodei: Não acho que isso será um problema em 30 anos e estou preocupado com ambos.

Em teoria, existe um modelo que pode monopolizar o mundo? Se o modelo seguir apenas os desejos de um pequeno grupo de pessoas, esse grupo de pessoas pode usar esse modelo para dominar o mundo. Isso significa que, uma vez que haja um problema com o alinhamento, devemos prestar a mesma atenção aos problemas de segurança da IA causados pelo abuso. **

Alguns meses atrás, a OpenAI tentou explicar o GPT-2 com o GPT-4, que é uma etapa muito importante na explicabilidade. Agora, geralmente sentimos que escala e segurança estão intimamente relacionadas e se complementam. Como julgar e avaliar outras inteligências, e talvez um dia até ser usado para conduzir pesquisas de alinhamento.

**Dwarkesh Patel: Sua visão pode ser relativamente otimista, mas a visão de alguém pode ser mais pessimista; podemos nem ter a capacidade de alinhar corretamente o modelo como queremos, por que você está confiante nisso? **

**Dario Amodei: **Não importa o quão difícil seja resolver o Alinhamento, qualquer plano verdadeiramente bem-sucedido precisa levar em consideração os problemas de segurança e alinhamento da IA. ** À medida que a tecnologia de IA continua avançando, ela pode levantar problemas de equilíbrio de poder entre as nações. Ao mesmo tempo, isso levanta uma grande questão: os indivíduos são capazes de realizar atos maliciosos difíceis de impedir por conta própria? **

Esses problemas devem ser enfrentados simultaneamente se quisermos encontrar soluções que realmente funcionem e nos levem a um futuro brilhante. **Seria inapropriado se tomássemos a atitude de que, se o primeiro problema não pode ser resolvido, não precisamos pensar no problema seguinte. Em vez disso, é nosso dever valorizar o último. ** Não importa o que o futuro reserva, essas questões são algo que devemos levar a sério.

** Dwarkesh Patel: Por que você diz que levará de 2 a 3 anos para um grande modelo ser capaz de realizar um ataque bioterrorista em larga escala ou algo assim? **

• O Congresso dos EUA realizou uma reunião sobre regulamentação da tecnologia de IA em 25 de julho deste ano. O governo dos EUA comparou a IA ao segundo "Projeto Manhattan" da América ou ao segundo "Projeto de Pouso Tripulado na Lua" da NASA e convidou participantes, incluindo empresas de IA, como OpenAI e Anthropic. Durante a conferência, Dario Amodei disse temer que a IA possa ser usada para criar vírus perigosos e outras armas biológicas dentro de dois anos.

Dario Amodei: O que eu falava quando estava no Congresso era que existem alguns passos para conseguir informação no Google, e tem alguns passos que estão "faltando", espalhados em vários livros didáticos, e podem nem aparecer em qualquer livro didático. Esta informação é conhecimento tácito, não conhecimento explícito. Descobrimos que, na maioria dos casos, essas partes críticas ausentes não foram totalmente preenchidas pelo modelo. Mas também descobrimos que às vezes o modelo preenche as lacunas em alguns casos. No entanto, a alucinação, que às vezes pode ocorrer quando os modelos conseguem preencher as lacunas, também é um fator que nos mantém seguros.

Às vezes, as pessoas podem fazer perguntas ao modelo sobre biologia para orientar o modelo a responder com informações prejudiciais relacionadas a ataques biológicos, mas, na verdade, essas informações também podem ser encontradas no Google, então não estou particularmente preocupado com essa situação. Na verdade, acho que muito foco na resposta de Claude pode fazer com que outros crimes verdadeiros sejam esquecidos.

Mas também há muitas indicações de que o modelo funciona bem em tarefas importantes. Se compararmos o modelo atual com o modelo anterior, podemos sentir claramente a rápida melhoria das capacidades do modelo, então é provável que enfrentemos desafios reais nos próximos 2-3 anos.

**Dwarkesh Patel: Além da ameaça que a IA pode representar para os seres humanos, você também tem enfatizado a segurança cibernética (Cybersecurity)? Como vocês estão neste momento? **

Dario Amodei: Fizemos essencialmente algumas inovações arquitetônicas, que chamamos internamente de multiplicadores de computação, porque esses designs também são atualizações no nível de computação. Temos trabalhado nisso nos últimos meses, mas não posso entrar em muitos detalhes para evitar quebrar a arquitetura, e apenas um punhado de pessoas dentro da Anthropic sabe disso. Não posso dizer que "nossa arquitetura é 100% absolutamente segura", mas a Anthropic tem de fato investido nessa área para evitar problemas de segurança de rede. Embora nossos oponentes tenham tido tais incidentes (observação: isso se refere ao vazamento de dados pessoais e títulos de bate-papo de alguns usuários do ChatGPT Plus ocorrido em 20 de março de 2023), a curto prazo, parece ser bom para a Anthropic, mas em a longo prazo, como toda a indústria faz sua própria segurança é a coisa mais importante.

Nosso diretor de segurança era responsável pela segurança do Google Chrome, que era um ataque amplamente direcionado. Ele gosta de pensar em quanto custaria atacar o Antrópico com sucesso. Nosso objetivo é que o custo de ter outros hackeando o Anthropic seja maior do que o custo de meramente treinar o próprio modelo do usuário. A lógica aqui é que se houver risco no ataque, com certeza consumirá recursos escassos.

Eu acho que o nosso padrão de segurança é muito alto, se você comparar com uma empresa do mesmo porte de 150 pessoas, o investimento em segurança dessas empresas é totalmente incomparável com o da Anthropic, bastante difícil. Para garantir a segurança, apenas um número muito pequeno de pessoas dentro da Anthropic entende os detalhes de treinamento do modelo.

**Dwarkesh Patel: As empresas de tecnologia já possuem defesas de segurança suficientes para lidar com AGI? **

Dario Amodei: Pessoalmente, não tenho certeza se a experiência atual das empresas de tecnologia em questões de segurança é suficiente para lidar com AGI, porque pode haver muitos ataques cibernéticos que não conhecemos, por isso é difícil desenhar conclusões agora. Existe uma regra que diz que quando algo recebe atenção suficiente, geralmente será atacado. ** Por exemplo, recentemente vimos que algumas contas de e-mail de altos funcionários do governo dos EUA na Microsoft foram hackeadas, então é razoável especular que é por causa das ações de algumas forças para roubar segredos de estado.

**Pelo menos na minha opinião, se algo for de alto valor, geralmente será roubado. Minha preocupação é que o AGI seja visto como extremamente valioso no futuro, e isso será como roubar um míssil nuclear, e você deve ter muito cuidado com isso. **Insisto em melhorar o nível de segurança de rede em todas as empresas em que trabalho. pode permitir que as empresas formem uma vantagem competitiva. E usando isso como um ponto de venda para o recrutamento, acho que conseguimos isso.

A gente competia com nossos pares na pesquisa de interpretabilidade, aí outras instituições perceberam que estavam ficando para trás e começaram a se esforçar nessas áreas. Mas a segurança cibernética tem lutado para fazer o mesmo porque grande parte do trabalho precisa ser feito silenciosamente. Publicamos um artigo sobre isso antes, mas os resultados gerais são o que importa.

**Dwarkesh Patel: O que a Anthropic fará em termos de segurança nos próximos 2-3 anos? **

**Dario Amodei: A segurança do data center é muito importante, embora o data center não precise estar no mesmo local da empresa, fazemos o possível para garantir que o data center também esteja nos Estados Unidos. **

Além disso, atenção especial deve ser dada à segurança física do data center e à proteção de dispositivos de computação, como GPUs. Se alguém decidir lançar algum tipo de ataque cibernético com uso intensivo de recursos, ele só precisa ir diretamente ao data center para roubar os dados ou extrair os dados enquanto estão em trânsito do centro para nós. Essas construções serão muito diferentes dos conceitos tradicionais tanto na forma quanto na função. **Dado o rápido desenvolvimento da tecnologia atual, dentro de alguns anos, o tamanho e o custo dos centros de dados de rede podem ser comparáveis aos dos porta-aviões. Além de poder treinar modelos enormes em conexões de domínio, a segurança do próprio data center também será uma questão importante. **

** Dwarkesh Patel: Recentemente surgiram rumores de que a energia, GPU e outros componentes necessários para atender os modelos da próxima geração começaram a ser escassos. Quais preparações a Anthropic fez? **

*Dario Amodei: O mercado não esperava que o modelo grande atingisse uma escala sem precedentes tão rapidamente, mas geralmente acredita-se que data centers de nível industrial precisam ser construídos para dar suporte à pesquisa e desenvolvimento de modelos grandes *. Quando um projeto chega a esse estágio, cada componente e detalhe nele deve ser tratado de maneira diferente e pode ter problemas devido a alguns fatores surpreendentemente simples, a eletricidade que você mencionou é um exemplo.

Para data centers, cooperaremos com provedores de serviços em nuvem.

Comercialização e confiança em benefício de longo prazo

**Dwarkesh Patel: Você mencionou anteriormente que as capacidades do modelo estão melhorando rapidamente, mas também é difícil agregar valor no sistema econômico existente. Você acha que os atuais produtos de IA têm tempo suficiente para obter uma renda estável a longo prazo no mercado? Ou poderia ser substituído por um modelo mais avançado a qualquer momento? Ou todo o cenário da indústria será completamente diferente até então? **

Dario Amodei: Depende da definição do conceito de "grande escala". Atualmente, várias empresas têm faturamento anual entre 100 milhões e 1 bilhão de dólares americanos, mas se podem chegar a dezenas de bilhões ou mesmo trilhões por ano é realmente difícil prever, porque também depende de muitos fatores indeterminados. **Agora algumas empresas estão aplicando tecnologia inovadora de IA em larga escala, mas isso não significa que a aplicação tenha alcançado os melhores resultados desde o início, mesmo que haja receita, não é totalmente igual à criação de valor econômico, e o o desenvolvimento coordenado de toda a cadeia da indústria é um processo longo. **

**Dwarkesh Patel: Do ponto de vista antrópico, se a tecnologia de modelo de linguagem está avançando tão rapidamente, teoricamente, a avaliação da empresa deveria crescer muito rapidamente? **

Dario Amodei: Mesmo se nos concentrarmos na pesquisa de segurança do modelo em vez da comercialização direta, podemos sentir claramente que o nível técnico está aumentando exponencialmente na prática. Para as empresas que têm a comercialização como seu principal objetivo, esse avanço certamente é mais rápido e acentuado do que o nosso. **Admitimos que a própria tecnologia do modelo de linguagem está progredindo rapidamente, mas em comparação com o processo de aplicação em profundidade de todo o sistema econômico, a acumulação de tecnologia ainda está em um ponto de partida relativamente baixo. **

**Determinar a direção futura é uma corrida entre os dois: a velocidade com que a própria tecnologia melhora e a velocidade com que ela é efetivamente integrada e aplicada e entra no sistema econômico real. É provável que ambos se desenvolvam em alta velocidade, mas a ordem de combinação e pequenas diferenças podem levar a resultados muito diferentes. **

**Dwarkesh Patel: Os gigantes da tecnologia podem investir até US$ 10 bilhões em treinamento de modelos nos próximos 2 a 3 anos. Que tipo de impacto isso terá na Anthropic? **

**Dario Amodei: O primeiro caso é que, se não conseguirmos manter nossa posição de ponta por causa do custo, não continuaremos a insistir em desenvolver o mais avançado. **Em vez disso, examinamos como extrair valor das gerações anteriores de modelos.

**A segunda opção é aceitar as compensações. **Acho que essas compensações podem ser mais positivas do que parecem,

**A terceira situação é que quando o treinamento do modelo atinge esse nível, pode começar a trazer novos perigos, como o abuso da IA. **

** Dwarkesh Patel: Como seria se a IA não fosse mal utilizada e, em vez disso, as "pessoas certas" executassem esses modelos sobre-humanos? Quem é a "pessoa certa"? Quem realmente controlará o modelo daqui a cinco anos? **

Dario Amodei: Acho que esses modelos de IA são extremamente poderosos, e gerenciá-los envolveria algum nível de envolvimento do governo ou agência multinacional, mas isso seria simplista e provavelmente menos eficaz. **O futuro gerenciamento de IA precisa estabelecer um mecanismo transparente, justo e executável. Isso requer equilibrar os interesses dos desenvolvedores de tecnologia, governos eleitos e cidadãos individuais. No final do dia, a legislação deve ser aprovada para governar essa tecnologia. **

**Dwarkesh Patel: Se a Anthropic desenvolver a AGI no verdadeiro sentido, e o controle da AGI for confiado ao LTBT, isso significa que o controle da própria AGI também será entregue à agência? **

Dario Amodei: Isso não significa que a Anthropic, ou qualquer outra entidade, tomará decisões sobre AGI em nome dos humanos, os dois são diferentes. Se a Anthropic desempenha um papel muito importante, uma abordagem melhor é expandir a composição do The Long Term Benefit Trust (LTBT), trazendo mais talentos de todo o mundo, ou posicionar a instituição como um órgão funcional, regido por uma estrutura mais ampla comitê multinacional que rege todas as tecnologias AGI das empresas para representar o interesse público. **Acho que não devemos ser muito otimistas sobre as questões de segurança e alinhamento da IA.Este é um problema novo e precisamos iniciar a pesquisa sobre instituições de gestão nacional e modelos operacionais o mais rápido possível. **

• The Long Term Benefit Trust:

Esses trusts manteriam uma classe especial de ações da Anthropic (chamadas "Classe T") que não poderiam ser vendidas e não pagariam dividendos, o que significa que não havia um caminho claro para o lucro. O fideicomisso será a única entidade detentora das ações Classe T. Mas os acionistas da Classe T, e o fundo de interesse de longo prazo resultante, eventualmente terão o poder de eleger e remover três dos cinco diretores da Anthropic, dando ao fundo o controle majoritário de longo prazo da empresa.

**Dwarkesh Patel: Como convencer os investidores a aceitar uma estrutura como o LTBT? Priorize a segurança da tecnologia e o interesse público em vez de maximizar o valor do acionista. **

Dario Amodei: Acho correto configurar o mecanismo LTBT (Long Term Benefit Trust).

Um mecanismo semelhante foi previsto desde o início da Anthropic, e um órgão regulador especial existe desde o início e continuará a existir no futuro. Todo investidor tradicional se concentrará nesse mecanismo ao considerar investir na Anthropic. Alguns investidores têm a atitude de não perguntar sobre os arranjos internos da empresa, enquanto outros temem que essa organização terceirizada possa pressionar a empresa a ir contra ela. dos interesses dos acionistas. Embora haja limites para isso dentro da lei, precisamos comunicar isso a todos os investidores. Indo um passo além, discutimos algumas possíveis medidas que diferem dos interesses dos investidores tradicionais, e por meio desses diálogos, todas as partes podem chegar a um consenso.

**Dwarkesh Patel: Descobri que os fundadores e funcionários da Anthropic têm um grande número de físicos, e a lei de escala também se aplica aqui. Quais métodos práticos e formas de pensar da física se aplicam à IA? **

• Teoria efetiva:

Uma teoria efetiva é uma teoria científica que tenta descrever alguns fenômenos sem explicar de onde vêm os mecanismos que explicam os fenômenos em sua teoria. Isso significa que a teoria fornece um modelo que "funciona", mas não fornece uma boa razão para fornecer esse modelo.

Dario Amodei: Parte disso é que os físicos são alunos muito bons, porque acho que se você contratar alguém com Ph.D. Contribua, e vários dos fundadores da Anthropic, inclusive eu, Jared Kaplan e Sam McCandlish, temos formação em física e conhecemos muitos outros físicos, então pudemos contratá-los. Atualmente, a empresa pode ter de 30 a 40 funcionários com formação em física. O ML ainda não é um campo onde o sistema teórico foi formado, para que eles possam começar rapidamente.

** Dwarkesh Patel: Suponha que já seja 2030 e tenhamos alcançado os principais problemas reconhecidos de erradicação de doenças, erradicação de fraudes, etc., como será o mundo? O que devemos fazer com a superinteligência? **

Dario Amodei: Propor diretamente "como usar a super IA depois de obtê-la" tende a fazer com que as pessoas tenham uma certa pressuposição, o que é perturbador. Nos últimos 150 anos, acumulamos uma rica experiência baseada na prática da economia de mercado e do sistema democrático, reconhecendo que cada um pode definir por si qual é a melhor forma de vivenciar, e ** a sociedade é formulada de forma complexa e descentralizada. normas e valores. **

Quando o problema de AI Safety não foi resolvido, é necessário um certo grau de supervisão centralizada, mas se todos os obstáculos forem removidos, como podemos criar uma ecologia melhor? **Acho que a pergunta que a maioria das pessoas, grupos e ideologias começam a pensar é "qual é a definição de uma vida boa", mas a história nos diz que muitas vezes a prática de impor um cenário de "vida ideal" muitas vezes leva a consequências ruins . **

** Dwarkesh Patel: Em comparação com outros CEOs de empresas de IA, você não faz muitas aparições públicas e raramente posta no Twitter. Por quê? **

Dario Amodei: Estou muito orgulhoso disso. ** Se os outros acham que sou muito discreto, é exatamente isso que eu quero. Incorporar reconhecimento ou elogio ao sistema motivacional central pode destruir a capacidade de pensar e, em alguns casos, até "danificar a alma", então escolho ativamente manter um perfil baixo para proteger minha capacidade de pensar de forma independente e objetiva. **

**Já vi pessoas ficarem famosas no Twitter por um determinado ponto de vista, mas na verdade elas podem carregar uma bagagem de imagens dele e é difícil mudar. Não gosto que as empresas sejam muito pessoais e não sou fã de jogar algo pessoal sobre o CEO porque isso desvia a atenção dos pontos fortes e dos problemas da empresa. **Espero que todos prestem mais atenção na própria empresa e na estrutura de incentivos. Todo mundo gosta de um rosto amigável, mas ser gentil não significa muito.

Referência:

  1. Vídeo original:

  2. A pesquisa da Anthropic sobre a explicabilidade do mecanismo:

Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate.io
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)