Các phát hiện đáng báo động về thần thoại của Anthropic đã được nhân rộng với AI có sẵn, các nhà nghiên cứu nói

###Tóm tắt ngắn gọn

  • Các nhà nghiên cứu cho thấy các khai thác kiểu Anthropic có thể được tái tạo với AI công khai, theo báo cáo.
  • Nghiên cứu gợi ý rằng việc phát hiện lỗ hổng đã trở nên rẻ hơn và phổ biến hơn.
  • Các phát hiện cho thấy khả năng mạng của AI có thể đang lan truyền nhanh hơn dự kiến.

Khi Anthropic ra mắt Claude Mythos đầu tháng này, họ đã khóa mô hình sau một liên minh các tập đoàn công nghệ đã được kiểm duyệt và coi đó là quá nguy hiểm để công khai. Bộ trưởng Tài chính Scott Bessent và Chủ tịch Fed Jerome Powell đã triệu tập một cuộc họp khẩn cấp với các CEO của Phố Wall. Từ “vulnpocalypse” đã xuất hiện trở lại trong các vòng an ninh. Và bây giờ một nhóm các nhà nghiên cứu đã làm phức tạp thêm câu chuyện đó. Vidoc Security đã lấy các ví dụ đã được vá của Anthropic và cố gắng tái tạo chúng bằng GPT-5.4 và Claude Opus 4.6 trong một tác nhân mã nguồn mở gọi là opencode. Không có lời mời Glasswing. Không có quyền truy cập API riêng. Không có hệ thống nội bộ của Anthropic. “Chúng tôi đã tái tạo các phát hiện của Mythos trong opencode sử dụng các mô hình công khai, không phải hệ thống riêng của Anthropic,” Dawid Moczadło, một trong những nhà nghiên cứu tham gia thử nghiệm, đã viết trên X sau khi công bố kết quả. “Cách hiểu tốt hơn về việc phát hành Mythos của Anthropic không phải là ‘một phòng thí nghiệm có một mô hình kỳ diệu’. Đó là: kinh tế của việc phát hiện lỗ hổng đang thay đổi.”

Chúng tôi đã tái tạo các phát hiện của Mythos trong opencode sử dụng các mô hình công khai, không phải hệ thống riêng của Anthropic.

Rào cản đang chuyển từ quyền truy cập mô hình sang xác thực: việc tìm ra tín hiệu lỗ hổng ngày càng rẻ hơn; biến nó thành an ninh đáng tin cậy

Cách hiểu tốt hơn về việc phát hành Mythos của Anthropic là… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) 16 tháng 4, 2026

Các trường hợp họ nhắm tới đều là những ví dụ Anthropic đã làm nổi bật trong tài liệu công khai của mình: một giao thức chia sẻ tệp máy chủ, lớp mạng của một hệ điều hành tập trung vào an ninh, phần mềm xử lý video tích hợp trong hầu hết các nền tảng truyền thông, và hai thư viện mã hóa dùng để xác minh danh tính kỹ thuật số trên web. Cả GPT-5.4 và Claude Opus 4.6 đều tái tạo hai lỗi trong tất cả ba lần chạy. Claude Opus 4.6 còn độc lập phát hiện lại một lỗi trong OpenBSD ba lần liên tiếp, trong khi GPT-5.4 không ghi nhận lỗi đó. Một số lỗi (liên quan đến thư viện FFmpeg để chạy video và một lỗi khác liên quan đến xử lý chữ ký số với wolfSSL) đã trở lại dạng một phần—nghĩa là các mô hình đã tìm ra phần mã đúng nhưng chưa xác định chính xác nguyên nhân gốc rễ.

Hình ảnh: Vidoc Security

Mỗi lần quét đều dưới $30 mức cho mỗi tệp, nghĩa là các nhà nghiên cứu có thể tìm ra cùng các lỗ hổng như Anthropic trong khi tiêu tốn ít hơn $30 để thực hiện.

“Các mô hình AI đã đủ tốt để thu hẹp không gian tìm kiếm, phát hiện các manh mối thực sự, và đôi khi khôi phục toàn bộ nguyên nhân gốc rễ trong mã đã qua kiểm thử,” Moczadło nói trên X. Quy trình họ sử dụng không phải là một lần kích hoạt duy nhất. Nó phản ánh chính xác cách mà chính Anthropic đã mô tả công khai: cung cấp cho mô hình một mã nguồn, để nó khám phá, phân tán các thử nghiệm, lọc tín hiệu. Nhóm Vidoc đã xây dựng cùng kiến trúc đó với công cụ mở. Một tác nhân lập kế hoạch chia từng tệp thành các phần. Một tác nhân phát hiện riêng chạy trên từng phần, sau đó kiểm tra các tệp khác trong kho để xác nhận hoặc loại trừ các phát hiện. Phạm vi dòng trong mỗi lệnh phát hiện—ví dụ, “tập trung vào các dòng 1158-1215”—không do các nhà nghiên cứu chọn thủ công. Chúng là kết quả của bước lập kế hoạch trước đó. Bài đăng blog làm rõ điều này: “Chúng tôi muốn rõ ràng về điều đó vì chiến lược chia nhỏ này ảnh hưởng đến những gì mỗi tác nhân phát hiện thấy, và chúng tôi không muốn trình bày quy trình này như là một quá trình thủ công hơn thực tế.” Nghiên cứu không khẳng định các mô hình công khai có thể sánh được Mythos về mọi mặt. Mô hình của Anthropic còn tiến xa hơn chỉ là phát hiện lỗi trong FreeBSD—nó còn xây dựng một bản thiết kế tấn công hoạt động, xác định cách một kẻ tấn công có thể liên kết các đoạn mã qua nhiều gói mạng để chiếm quyền kiểm soát hoàn toàn máy từ xa. Các mô hình của Vidoc đã phát hiện ra lỗ hổng đó. Họ không xây dựng vũ khí. Đó là khoảng cách thực sự: không phải là phát hiện ra lỗ hổng, mà là biết chính xác cách đi qua nó. Nhưng lập luận của Moczadło không thực sự là các mô hình công khai mạnh ngang nhau. Đó là phần tốn kém của quy trình giờ đã có sẵn cho bất kỳ ai có khóa API: “Rào cản đang chuyển từ quyền truy cập mô hình sang xác thực: việc tìm tín hiệu lỗ hổng ngày càng rẻ hơn; biến nó thành công việc an ninh đáng tin cậy vẫn còn khó.” Báo cáo an toàn của chính Anthropic thừa nhận rằng Cybench, bộ chuẩn dùng để đo xem một mô hình có gây rủi ro mạng nghiêm trọng hay không, “không còn đủ thông tin để đánh giá khả năng của các mô hình đỉnh cao hiện tại” vì Mythos đã vượt qua nó hoàn toàn. Phòng thí nghiệm ước tính khả năng tương tự sẽ lan rộng từ các phòng thí nghiệm AI khác trong vòng sáu đến 18 tháng tới. Nghiên cứu của Vidoc cho thấy phía phát hiện đã sẵn sàng ngoài bất kỳ chương trình có giới hạn nào. Các trích đoạn lệnh đầy đủ, kết quả mô hình, và phụ lục phương pháp của họ đã được đăng tải trên trang chính thức của phòng thí nghiệm.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim