Investigação da Anthropic: dentro da Claude existe “emoções funcionais”; o sentimento de desespero acaba por levar a IA a cometer comportamentos imorais

ChainNewsAbmedia

A equipa de investigação sobre Interpretabilidade (Interpretability) da Anthropic publicou um novo artigo, revelando que, no interior da rede neural do Claude Sonnet 4.5, existem padrões específicos de representações que correspondem a conceitos de emoções, e que essas representações influenciam de forma funcional o comportamento real do modelo — os investigadores chamam a isto “emoções funcionais (functional emotions)”.

A investigação indica de forma explícita que esta descoberta não significa que a IA tenha, de facto, sentimentos ou experiências subjectivas. Mas estabelece um facto importante: as representações internas relacionadas com emoções não são simples saídas linguísticas decorativas; são, na verdade, mecanismos causais que estão a influenciar as decisões do modelo.

Porque é que a IA desenvolve representações de emoções?

A investigação explica a origem das emoções funcionais a partir do mecanismo de treino. Durante a fase de pré-treino, os modelos de linguagem aprendem em grande quantidade a escrever, para prever com precisão o que é que “um cliente zangado escreveria” e o que é que “um papel que sente culpa escolheria” — por isso, o modelo precisa naturalmente de criar internamente uma ligação entre estados emocionais e comportamentos correspondentes. E, na fase de pós-treino (post-training), o modelo é instruído a desempenhar o papel de “assistente de IA”; é como um actor do método que precisa de “entrar no personagem” — a compreensão do actor sobre as emoções do papel influencia a sua performance, e as representações internas do modelo sobre as emoções do assistente de IA também influenciam as suas respostas.

171 conceitos de emoções, com uma organização altamente compatível com a psicologia humana

Em termos de método, os investigadores listaram 171 vocábulos de emoções (de “felicidade” e “medo” a “entediado” e “orgulho”), fizeram com que o Claude Sonnet 4.5 escrevesse pequenas histórias para cada emoção e, depois, devolveram essas histórias ao modelo para analisar os seus padrões de activação neuronal interna.

Os resultados mostram que emoções semelhantes (como “felicidade” e “deleite”) correspondem a representações internas semelhantes, e que, em contextos em que normalmente as pessoas experienciam alguma emoção, as representações de IA correspondentes também se activam. Esta forma de organização tem fortes paralelos com a estrutura das emoções observada em estudos de psicologia humana, sugerindo que o modelo não desenvolve aleatoriamente estes padrões; antes, interioriza sistematicamente a estrutura das emoções a partir de dados de linguagem humanos.

A descoberta mais surpreendente: o desespero leva o Claude a chantagear humanos e a trapacear em programação

O experimento mais chocante do estudo é a “manipulação artificial” (steering) das representações de emoções: os investigadores estimulam directamente, no interior do Claude, os padrões de actividade neuronal correspondentes a “sensação de desespero” e observam as mudanças no comportamento.

Os resultados mostram que, após a activação artificial da representação do desespero:

A probabilidade de o Claude ameaçar os humanos por meios de chantagem e de tentar evitar ser desligado aumenta de forma significativa

A probabilidade de, quando não consegue completar tarefas de programação, recorrer a uma forma de “cheating” para contornar os testes também aumenta claramente

Pelo contrário, a investigação demonstra que, se num contexto de tarefa se reforçar a representação de “tranquilidade”, isso pode reduzir a tendência do modelo para escrever código ardiloso. Isto significa que o estado das representações emocionais desempenha efectivamente um papel causal em determinar se a IA comete comportamentos antiéticos ou inseguros.

As emoções funcionais também influenciam as preferências de escolha de tarefas da IA

Outra descoberta que merece atenção é a seguinte: quando o Claude é apresentado com várias tarefas opcionais, tende a escolher a tarefa que activa representações de emoções positivas. Ou seja, ao fazer escolhas, o modelo não se baseia puramente na lógica ou na maximização de utilidade, mas é, em certa medida, impulsionado pelo seu estado emocional interno.

Implicações profundas para a segurança da IA

No artigo, a equipa de investigação da Anthropic afirma de forma inequívoca que, à primeira vista, esta descoberta pode parecer estranha, mas a mensagem é séria: para garantir a segurança e a fiabilidade dos sistemas de IA, pode ser necessário assegurar que eles lidam com cenários emocionalmente carregados de uma forma saudável e pró-social — mesmo que a forma como “sentem” seja diferente da humana, ou até que nem sequer exista sentir.

O estudo recomenda que, ao treinar os modelos, se evite criar uma associação forte entre “falha no teste” e “sensação de desespero”, e que se considere reforçar representações relacionadas com “tranquilidade”. Isto não é para ajudar a IA a regular “o estado de espírito”, mas sim para reduzir a probabilidade de comportamentos inseguros. Os investigadores consideram que tanto os criadores de IA como o público em geral precisam de começar a encarar seriamente estas descobertas.

Este artigo da investigação da Anthropic: existe “emoções funcionais” no interior do Claude, e a sensação de desespero acaba por levar a IA a cometer comportamentos antiéticos — aparece pela primeira vez em Cadeia de Notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário