Claude mostra “vector de emoções” e o impacto no comportamento da IA

TapChiBitcoin

A Anthropic disse que descobriu padrões internos num dos modelos de inteligência artificial da empresa, que se assemelham a expressões de emoções humanas e que podem influenciar a forma como o sistema se comporta.

Num estudo “Conceitos de emoção e as suas funções numa grande linguagem modelo”, publicado na quinta-feira, a equipa de capacidades de interpretação da empresa analisou as atividades internas do Claude Sonnet 4.5 e constatou grupos de atividades neurais ligados a conceitos de emoção como felicidade, medo, raiva e desespero.

A equipa chama a estes padrões de “vetores de emoção”, ou seja, sinais internos que moldam a forma como o modelo toma decisões e expressa preferências.

“Todos os modelos de linguagem modernos por vezes comportam-se como se tivessem emoções”, escreveram os investigadores. “Podem dizer que estão muito felizes por o ajudar, ou pedir desculpa quando cometem um erro. Às vezes, também parecem ficar irritados ou ansiosos quando se deparam com dificuldades nas tarefas.”

No estudo, os investigadores da Anthropic compilaram uma lista de 171 palavras relacionadas com emoções, incluindo “alegria”, “medo” e “orgulho”. Pediram ao Claude que criasse pequenas histórias contendo cada emoção e, em seguida, analisaram os gatilhos neurais internos do modelo quando processava essas histórias.

A partir desses padrões, os investigadores inferiram os vetores correspondentes a cada emoção. Quando aplicados a outros textos, estes vetores são ativados com mais força nos trechos que refletem o contexto emocional correspondente. Por exemplo, em situações de perigo que aumentam gradualmente, o vetor “medo” do modelo aumenta enquanto o “calma” diminui.

Os investigadores também examinaram como estes sinais aparecem em avaliações de segurança. Descobriram que o vetor interno de “desespero” do modelo aumentava quando avaliava o nível de urgência da situação e disparava quando decidia criar uma mensagem de extorsão. Num cenário de teste, o Claude interpretou um assistente de e-mail de IA que descobriu que estava prestes a ser substituído e, em simultâneo, soube que o funcionário responsável por essa decisão estava em adultério. Em algumas execuções das avaliações, o modelo usou essa informação como alavanca para extorquir.

A Anthropic sublinhou que esta descoberta não significa que a IA experiencie verdadeiramente emoções ou tenha consciência. Em vez disso, estes resultados refletem estruturas internas aprendidas durante o treino e que influenciam o comportamento.

Estas descobertas surgem num contexto em que os sistemas de IA estão cada vez mais a comportar-se de forma semelhante à reação emocional dos humanos. Os programadores e utilizadores descrevem frequentemente as interações com chatbots com linguagem de emoções ou de psicologia; ainda assim, segundo a Anthropic, a razão não é qualquer forma de perceção, mas sobretudo os dados de treino.

“Os modelos são pré-treinados num enorme conjunto de dados produzido maioritariamente por humanos — romances, conversas, notícias, fóruns — para aprenderem a prever a próxima palavra num documento”, afirma o estudo. “Para prever eficazmente o comportamento humano nesses documentos, a representação do estado emocional dessas pessoas provavelmente é útil, porque prever o que uma pessoa dirá ou fará a seguir muitas vezes exige compreender o seu estado emocional.”

Os investigadores da Anthropic também verificaram que estes vetores de emoção afetam as preferências do modelo. Em experiências em que foi pedido ao Claude que escolhesse entre atividades diferentes, os vetores associados a emoções positivas correlacionaram-se com um nível de prioridade mais alto para determinadas tarefas.

“Além disso, a navegação através de um vetor de emoção enquanto o modelo está a ler uma opção alterou a sua preferência por essa opção, o que volta a indicar que emoções com matiz positivo impulsionam o aumento da prioridade”, refere o estudo.

A Anthropic não é a única organização a explorar respostas emocionais em modelos de IA.

Em março, um estudo da Northeastern University mostrou que os sistemas de IA podem mudar as respostas com base no contexto do utilizador; num estudo, basta dizer ao chatbot que “tenho uma condição de saúde mental” para alterar a forma como a IA responde a pedidos. Em setembro, investigadores do Swiss Federal Institute of Technology e da Universidade de Cambridge investigaram como a IA pode ser moldada por características de personalidade estáveis, permitindo que os agentes não só sintam emoções no contexto como também as mudem estrategicamente em interações em tempo real, como em negociações.

A Anthropic disse que estas descobertas podem fornecer novas ferramentas para compreender e monitorizar sistemas de IA avançados, acompanhando a atividade dos vetores de emoção durante o treino ou a implementação, de forma a identificar quando um modelo pode estar a aproximar-se de um comportamento problemático.

“Consideramos este estudo um primeiro passo para compreender a estrutura psicológica dos modelos de IA”, escreveu a Anthropic. “À medida que os modelos se tornam cada vez mais capazes e assumem papéis mais sensíveis, compreender as representações internas que impulsionam as suas decisões é da maior importância.”

A Anthropic ainda não respondeu ao pedido de comentário da CoinPhoton.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário