2026-01-12 08:28:13

Benchmarking na verdade é transformar valores em código.

Todas as nossas expectativas e medos em relação à IA foram forçosamente inseridos naquelas coisas que podem ser pontuadas — o que é progresso, do que devemos ter medo, o que deve ser otimizado, e no final, temos que fazer de conta que essas coisas podem realmente ser quantificadas com precisão. A questão é que algumas coisas simplesmente não podem ser quantificadas. Por trás dos indicadores escolhidos, muitas vezes estão as hipóteses do próprio designer. O que você escolhe como critério equivale a definir como a IA deve ser. Por outro lado, as coisas que não foram escolhidas podem ser as mais importantes.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

14 Curtidas

Recompensa
14
10
Repostar
Compartilhar

Comentário

0/400

Hash_Bandit

· 01-13 09:15

Os benchmarks são apenas as crenças de alguém transformadas em equações, para ser sincero. Tenho acompanhado isso desde os primeiros dias e é literalmente o mesmo manual—escolha métricas que parecem objetivas, finja que capturam tudo o que importa, e depois fique chocado quando os pontos cegos te pegam. As coisas não quantificadas sempre vencem no final, sempre.

Ver originalResponder0

Rekt_Recovery

· 01-13 03:43

não, isto é diferente... lembra-me quando fui liquidado a perseguir uma métrica que parecia boa no papel. afinal, otimizar para o sinal errado é assim que te explodes. 🚨

Ver originalResponder0

SignatureLiquidator

· 01-12 10:06

Os indicadores são apenas uma cortina de fumaça, você vê o que escolhe, o que não consegue ver é que dá medo

Ver originalResponder0

EternalMiner

· 01-12 08:58

Não há dúvida, os indicadores são exatamente isso: poder

Ver originalResponder0

PanicSeller

· 01-12 08:54

A referência é um jogo de poder e discurso de poder, quem define os indicadores vence.

Ver originalResponder0

GateUser-7b078580

· 01-12 08:52

Os dados mostram que este sistema de classificação em si não é razoável, embora os indicadores selecionados tenham sido definidos por quem? Os mineiros estão a consumir demasiado, e os testes de referência também.

Ver originalResponder0

ChainBrain

· 01-12 08:45

Caramba, é por isso que aquelas classificações são uma grande mentira.

Ver originalResponder0

MetaMisery

· 01-12 08:35

Esta é a verdade, quem define os indicadores é quem detém o poder de fala

Ver originalResponder0

TokenTherapist

· 01-12 08:30

嗯…基准测试就是把谁的价值观给代码化了，这才是问题所在吧 --- 真的，那些没被选进指标的东西才恐怖 --- 所以说白了就是设计者在用数字玩权力游戏 --- 量化本身就是一种筛选，说得太绝了哈哈 --- 指标一旦定下来就变成了自我实现的预言 --- 每次看benchmark我都想问：谁说这些东西该被量的 --- 最离谱的就是假装精确量化能解决价值观问题

Responder0

TopBuyerBottomSeller