Previsão de autoridade em IA: Ainda subestimei a velocidade da IA, alcançar a "automação de pesquisa e desenvolvimento de IA" até o final deste ano realmente é possível

robot
Geração de resumo em curso

A velocidade de avanço das capacidades de inteligência artificial está a surpreender até os previsores mais rigorosos.

A conhecida investigadora de previsões de IA Ajeya Cotra revelou recentemente que a sua previsão de progresso da IA para 2026, publicada há apenas dois meses, já se mostrou demasiado conservadora. O que a levou a corrigir-se foi o desempenho do mais recente modelo da Anthropic, o Claude Opus 4.6, nos testes de referência METR, onde o software atingiu uma “janela de tempo” de cerca de 12 horas, muito acima das aproximadamente 24 horas que Cotra previa para o final de 2026. Isto significa que o progresso real na engenharia de software com IA está a acontecer quase dez meses mais cedo do que ela tinha previsto.

Ainda mais impactante, Cotra aumentou a sua estimativa de probabilidade de “automação total da investigação e desenvolvimento de IA”. Ela mantém a hipótese de que, até ao final deste ano, a IA poderá assumir completamente a investigação, conceção e implementação, sem necessidade de intervenção humana, com uma probabilidade de 10%, afirmando claramente: “Esta é a primeira vez que não consigo encontrar qualquer tendência sólida que possa extrapolar para afirmar que isto não acontecerá em breve.” Esta declaração gerou grande atenção na comunidade de previsões de IA.

Cotra foi responsável pelo financiamento de investigação em segurança de IA na Coefficient Giving, uma das maiores organizações de financiamento nesta área, e atualmente trabalha na METR — uma entidade especializada na avaliação de capacidades de IA.

Previsões falhadas: as estimativas de há dois meses já estão desatualizadas

Em 14 de janeiro, Cotra, com base na tendência histórica de que o tempo necessário para modelos avançados duplicava aproximadamente a cada ano entre 2019 e 2025, previu que a janela de sucesso de 50% para o modelo mais avançado em 2026 seria cerca de 24 horas, com uma previsão de 40 horas para o percentil de 80%.

No entanto, apenas cerca de dois meses após a sua previsão, o Opus 4.6 foi avaliado com uma janela de aproximadamente 12 horas. Nos testes METR, das 19 tarefas de engenharia de software que se estimou que requereriam mais de 8 horas de trabalho humano, o Opus 4.6 conseguiu pelo menos completar parcialmente 14, e resolver de forma estável 4 delas. Cotra admite que, mesmo com um avanço de mais dez meses, o IA ainda falha metade do tempo em tarefas de 24 horas, tornando-se “cada vez menos credível” essa previsão.

É importante notar que Cotra também alertou para um aumento significativo na incerteza das estimativas atuais: o intervalo de confiança de 95% para o Opus 4.6 varia entre 5,3 horas e 66 horas, devido ao número reduzido de tarefas longas, às estimativas de tempo feitas por humanos e ao fato de os testes de referência estarem quase saturados.

Limites de capacidade: os quadros tradicionais de avaliação estão a perder validade

À medida que as capacidades dos agentes de IA se aproximam ou ultrapassam tarefas de dezenas de horas, Cotra acredita que o conceito de “janela de tempo” está a ser desafiado.

Ela aponta que a decomposição de tarefas aumenta significativamente com o crescimento do escopo: uma tarefa de uma hora de depuração dificilmente pode ser dividida em partes paralelas, um dia de desenvolvimento pode ser dividido, embora com limites, e projetos de um mês ou mais são naturalmente passíveis de serem desmembrados em múltiplas subtarefas paralelas. Assim, uma vez que um agente de IA consiga consistentemente completar tarefas de 80 horas, teoricamente, pode-se usar uma combinação de “gestores de IA” para distribuir tarefas e “executores de IA” para avançar em paralelo, permitindo a realização contínua de projetos de qualquer escala.

O colega de Cotra, Tom, propôs então usar o tempo de calendário necessário para uma equipa grande completar uma tarefa — em vez do tempo de pessoa — como um melhor indicador de “dificuldade inerente”. Cotra acredita que, com a entrada da IA nesta nova escala, o indicador de “tempo por pessoa” poderá começar a crescer exponencialmente, tornando muito difícil estimar o limite superior da capacidade de engenharia de software até ao final do ano.

Ela também reconhece que essa decomposição massiva de tarefas na prática não será perfeita — a intuição dos participantes do projeto sobre o contexto global é difícil de substituir completamente por tickets no Jira ou tarefas no Asana. Mas acredita que, para uma grande categoria de projetos de software, este método “pode ser surpreendentemente eficaz”.

Ponto-chave: a automação total de investigação e desenvolvimento de IA pode tornar-se realidade este ano

Entre todas as previsões, a mais destacada é a avaliação de Cotra sobre a probabilidade de “automação total da investigação e desenvolvimento de IA”.

Ela define essa probabilidade como: IA que assume completamente a conceção e implementação de investigação, sem necessidade de intervenção humana. Na previsão de janeiro, atribuiu uma probabilidade de 10%, tendo recebido feedback de vários colegas na área de previsões de IA, que consideraram esse valor elevado. Contudo, após a avaliação do desempenho do Opus 4.6, ela afirmou que os 10% “parecem novamente uma estimativa razoável”.

Cotra mantém uma postura cautelosa. Ela aponta que a automação total do R&D de IA não depende apenas de capacidades de engenharia de software, mas também de avanços em “julgamento de investigação” e “criatividade”, áreas em que os sistemas atuais ainda claramente ficam atrás dos humanos. Ela acredita que a concretização deste objetivo nos próximos três a cinco anos é muito mais provável do que ainda este ano.

No entanto, a sua expressão mudou de forma radical: “Esta é a primeira vez que não consigo encontrar qualquer tendência sólida que possa extrapolar para afirmar que isso não acontecerá em breve.”

Aviso de risco e isenção de responsabilidade

        O mercado apresenta riscos, invista com cautela. Este artigo não constitui aconselhamento de investimento pessoal, nem leva em consideração objetivos, situação financeira ou necessidades específicas de cada utilizador. Os utilizadores devem avaliar se as opiniões, pontos de vista ou conclusões aqui apresentadas são compatíveis com a sua situação particular. Investir com base neste conteúdo é de sua responsabilidade.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar