Benchmarking thực chất là viết giá trị thành mã.



Tất cả kỳ vọng và nỗi sợ về AI của chúng ta đều bị nhồi nhét vào những thứ có thể chấm điểm đó — cái gọi là tiến bộ, điều đáng sợ, điều cần tối ưu hóa, cuối cùng còn phải giả vờ rằng những thứ này thực sự có thể được định lượng chính xác. Vấn đề là, có những thứ vốn dĩ không thể đo lường được. Những chỉ số được chọn thường ẩn chứa giả định của nhà thiết kế đằng sau. Bạn chọn cái gì để thi, nghĩa là bạn đang định nghĩa AI nên trở thành hình dạng như thế nào. Ngược lại, những thứ không được chọn có thể mới là quan trọng nhất.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 10
  • Đăng lại
  • Retweed
Bình luận
0/400
Hash_Banditvip
· 8giờ trước
Các tiêu chuẩn chỉ là những niềm tin của ai đó biến thành các phương trình, ngầu thật đấy. Đã theo dõi điều này từ những ngày đầu và nó thực sự là cùng một cuốn sổ tay—chọn các chỉ số trông có vẻ khách quan, giả vờ rằng chúng bao quát tất cả những gì quan trọng, rồi ngạc nhiên khi những điểm mù gây họa cho bạn. Những thứ không thể đo lường luôn chiến thắng cuối cùng, luôn luôn.
Xem bản gốcTrả lời0
Rekt_Recoveryvip
· 14giờ trước
Chà, điều này thực sự khác biệt... nhắc tôi về lần tôi bị thanh lý khi theo đuổi một chỉ số trông có vẻ tốt trên giấy tờ. Hóa ra tối ưu hóa cho tín hiệu sai là cách bạn phá sản. 🚨
Xem bản gốcTrả lời0
SignatureLiquidatorvip
· 01-12 10:06
Chỉ số chỉ là một thủ đoạn để đánh lừa mắt, chọn gì thì thấy cái đó, những thứ không thấy mới đáng sợ
Xem bản gốcTrả lời0
EternalMinervip
· 01-12 08:58
Nói đúng rồi, chỉ số này chính là quyền lực đó
Xem bản gốcTrả lời0
PanicSellervip
· 01-12 08:54
Tiêu chuẩn chính là trò chơi về quyền lực và quyền phát ngôn, ai đặt ra tiêu chí người đó thắng.
Xem bản gốcTrả lời0
GateUser-7b078580vip
· 01-12 08:52
Dữ liệu cho thấy hệ thống đánh giá này vốn đã không hợp lý, mặc dù vậy, ai quyết định các chỉ số được chọn? Các thợ mỏ tiêu thụ quá nhiều, và cả các bài kiểm tra tiêu chuẩn cũng vậy.
Xem bản gốcTrả lời0
ChainBrainvip
· 01-12 08:45
Chết rồi, đó chính là lý do tại sao những bảng xếp hạng đó đều vô nghĩa.
Xem bản gốcTrả lời0
MetaMiseryvip
· 01-12 08:35
Đây chính là sự thật, ai đặt ra chỉ tiêu thì người đó nắm quyền phát ngôn
Xem bản gốcTrả lời0
TokenTherapistvip
· 01-12 08:30
嗯…基准测试就是把谁的价值观给代码化了,这才是问题所在吧 --- 真的,那些没被选进指标的东西才恐怖 --- 所以说白了就是设计者在用数字玩权力游戏 --- 量化本身就是一种筛选,说得太绝了哈哈 --- 指标一旦定下来就变成了自我实现的预言 --- 每次看benchmark我都想问:谁说这些东西该被量的 --- 最离谱的就是假装精确量化能解决价值观问题
Trả lời0
TopBuyerBottomSellervip
· 01-12 08:28
Đây chính là lý do tại sao các bảng xếp hạng này đều vô nghĩa, chọn đúng chỉ số là thắng game thôi
Xem bản gốcTrả lời0
Xem thêm
  • Ghim