2026-01-12 08:28:13

Benchmarking na verdade é transformar valores em código.

Todas as nossas expectativas e medos em relação à IA foram forçosamente inseridos naquelas coisas que podem ser pontuadas — o que é progresso, do que devemos ter medo, o que deve ser otimizado, e no final, temos que fazer de conta que essas coisas podem realmente ser quantificadas com precisão. A questão é que algumas coisas simplesmente não podem ser quantificadas. Por trás dos indicadores escolhidos, muitas vezes estão as hipóteses do próprio designer. O que você escolhe como critério equivale a definir como a IA deve ser. Por outro lado, as coisas que não foram escolhidas podem ser as mais importantes.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
8
Republicar
Partilhar

Comentar

0/400

SignatureLiquidator

· 12h atrás

Os indicadores são apenas uma cortina de fumaça, você vê o que escolhe, o que não consegue ver é que dá medo

Ver originalResponder0

EternalMiner

· 14h atrás

Não há dúvida, os indicadores são exatamente isso: poder

Ver originalResponder0

PanicSeller

· 14h atrás

A referência é um jogo de poder e discurso de poder, quem define os indicadores vence.

Ver originalResponder0

GateUser-7b078580

· 14h atrás

Os dados mostram que este sistema de classificação em si não é razoável, embora os indicadores selecionados tenham sido definidos por quem? Os mineiros estão a consumir demasiado, e os testes de referência também.

Ver originalResponder0

ChainBrain

· 14h atrás

Caramba, é por isso que aquelas classificações são uma grande mentira.

Ver originalResponder0

MetaMisery

· 14h atrás

Esta é a verdade, quem define os indicadores é quem detém o poder de fala

Ver originalResponder0

TokenTherapist

· 14h atrás

嗯…基准测试就是把谁的价值观给代码化了，这才是问题所在吧 --- 真的，那些没被选进指标的东西才恐怖 --- 所以说白了就是设计者在用数字玩权力游戏 --- 量化本身就是一种筛选，说得太绝了哈哈 --- 指标一旦定下来就变成了自我实现的预言 --- 每次看benchmark我都想问：谁说这些东西该被量的 --- 最离谱的就是假装精确量化能解决价值观问题

Responder0

TopBuyerBottomSeller