Claude bùng nổ nghiên cứu leak gây thiệt hại cho thành quả của nhóm người Hoa, đã bị đánh và đứng thẳng xin lỗi

BlockBeatNews

Theo sự theo dõi của 1M AI News, vào ngày 2 tháng 4, Anthropic đã công bố một bài nghiên cứu mới, tìm hiểu “cơ chế cảm xúc” bên trong của Claude và phát hiện 171 “vector cảm xúc” trong Sonnet 4.5. Những cảm xúc này được kích hoạt trong các bối cảnh liên quan, và chúng tương tự với cấu trúc tâm lý và không gian cảm xúc của con người.

Nghiên cứu sinh thạc sĩ MBZUAI Chenxi Wang phát hiện rằng, chính bài nghiên cứu nhóm của cô đăng vào tháng 10 năm 2025 (《LLMs có “cảm nhận” không? Phát hiện và kiểm soát vòng cảm xúc》) mới là công trình đầu tiên nghiên cứu có hệ thống cơ chế bên trong tạo ra cảm xúc của các mô hình ngôn ngữ lớn. Khi cô đọc bài nghiên cứu của Anthropic, phản ứng đầu tiên là “không phải là nhóm chúng tôi đã làm năm ngoái sao?” Sự khác biệt cốt lõi giữa hai bên nằm ở chỗ: trước đây phần lớn các nghiên cứu tập trung vào việc mô hình nhận diện cảm xúc trong văn bản (tức là cảm nhận cảm xúc), còn cả hai bên của họ đều nghiên cứu việc mô hình tự tạo ra cảm xúc (tức là tạo cảm xúc/cơ chế nội tại). Tác giả liên lạc của Anthropic, Jack Lindsey, ban đầu cho rằng công việc của cả hai bên trùng lặp với các nghiên cứu đã có, nhưng sau khi Chenxi Wang đọc từng nội dung và chỉ ra khác biệt, ông đã thừa nhận sự phân biệt này. Hiện tại, Anthropic đã cập nhật blog bài nghiên cứu của mình, và ở phần “Related Work” đã thêm rõ ràng trích dẫn cho công trình này; sự việc được giải quyết theo cách tương đối thân thiện.

Bài nghiên cứu của nhóm người Trung Quốc đã từng đề cập ba phát hiện cốt lõi:

Thứ nhất, bên trong mô hình lớn thực sự tồn tại những biểu diễn cảm xúc ổn định, không phụ thuộc vào ngữ nghĩa cụ thể; các cảm xúc khác nhau bắt đầu hình thành các nhóm rõ ràng ngay ở lớp nông của mạng nơ-ron, chẳng hạn như giận dữ và ghê tởm ở gần nhau, buồn bã và sợ hãi ở gần nhau, phù hợp với trực giác của con người.

Thứ hai, những cơ chế cảm xúc này được dẫn dắt bởi một số ít nơ-ron cốt lõi và các attention head; thông qua thí nghiệm loại trừ (ablation), phát hiện rằng chỉ cần tắt 2-4 nơ-ron hoặc 1-2 attention head thì năng lực biểu đạt cảm xúc của mô hình sẽ giảm mạnh.

Thứ ba, nhóm đã tích hợp các thành phần cốt lõi này thành một “vòng cảm xúc” xuyên lớp; việc điều chỉnh trực tiếp vòng đó có thể giúp mô hình đạt độ chính xác 99.65% khi tạo ra cảm xúc mong định, vượt xa các phương pháp hướng dẫn bằng prompt truyền thống và điều khiển bằng vector. Ngay cả với cảm xúc “ngạc nhiên” trước đây vốn khó kiểm soát nhất, cũng đạt được biểu đạt chính xác 100%.

Cơ chế này đã được xác nhận trên nhiều mô hình như LLaMA và Qwen, chứng minh đây là quy luật phổ quát của các mô hình ngôn ngữ lớn.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận