ベンチマークは実際には価値観をコードに書き起こすことです。



私たちのAIに対するすべての期待と恐怖は、スコアをつけられるあれこれに無理やり詰め込まれています——何が進歩なのか、何を恐れるべきなのか、何を最適化すべきなのか、最後にはこれらのものが正確に定量化できるかのように装います。問題は、一部のものはそもそも量れないということです。選ばれた指標の背後には、しばしば設計者自身の仮定が隠されています。何を選んだかは、AIがどのようなものであるべきかを定義しているのと同じです。逆に言えば、選ばれなかったものこそが、もしかすると最も重要かもしれません。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 8
  • リポスト
  • 共有
コメント
0/400
SignatureLiquidatorvip
· 13時間前
指標というのはごまかしの道具に過ぎない。何を選ぶかによって見えるものが変わる。見えないものこそ恐ろしい。
原文表示返信0
EternalMinervip
· 14時間前
言ってその通り、指標というものはまさに権力だ
原文表示返信0
PanicSellervip
· 14時間前
基準は権力の言説権のゲームだ。誰が指標を決めるかが勝者になる。
原文表示返信0
GateUser-7b078580vip
· 14時間前
データによると、この評価体系自体が不合理であることが示されていますが、選ばれた指標は誰が決めたのでしょうか?マイナーが多く取りすぎているのも、ベンチマークテストも同様です。
原文表示返信0
ChainBrainvip
· 14時間前
くそっ、これがあのランキングがデタラメな理由だな
原文表示返信0
MetaMiseryvip
· 14時間前
これが真実だ。指標を設定する者が発言権を握る。
原文表示返信0
TokenTherapistvip
· 14時間前
嗯…基準テストは誰の価値観をコード化したものか、それが問題だろう --- 本当に、指標に選ばれなかったものこそ恐ろしい --- つまり、設計者は数字を使って権力ゲームをしているだけ --- 量化自体が一種の選別であり、言い過ぎだよね哈哈 --- 指標が決まると、それは自己実現的な予言になる --- 毎回ベンチマークを見るたびに問いかけたい:誰がこれらのものを測るべきだと言ったのかと --- 最もひどいのは、正確な量化が価値観の問題を解決できるふりをすること
原文表示返信0
TopBuyerBottomSellervip
· 14時間前
これがこれらのランキングがくだらない理由です。指標を選べばゲームに勝てるのです
原文表示返信0
  • ピン