Kiểm toán AI bước vào thực chiến, OpenAI phát hành EVMbench, tăng cường đánh giá an toàn hợp đồng thông minh

ETH1%
WELL0,07%

OpenAI hợp tác với Paradigm ra mắt EVMbench, đánh giá thực tế khả năng tấn công phòng thủ của AI đại lý trong hợp đồng EVM, tiết lộ mối lo ngại về việc tấn công mạnh phòng thủ yếu.

Tập trung vào thử nghiệm trong môi trường kinh tế thực tế, OpenAI hợp tác với Paradigm nâng cao xếp hạng an toàn chuỗi

Tập đoàn trí tuệ nhân tạo hàng đầu OpenAI thông báo hợp tác với công ty đầu tư mạo hiểm tiền điện tử nổi tiếng Paradigm và công ty an ninh OtterSec để ra mắt công cụ đánh giá chuẩn EVMbench, dành riêng cho việc đánh giá hiệu suất an toàn của AI đại lý (AI Agents) trong hợp đồng thông minh của Ethereum Virtual Machine (EVM).

Cùng với sự hội tụ sâu sắc của AI và công nghệ mã hóa, hợp đồng thông minh đã trở thành hạ tầng cốt lõi để quản lý hơn 1000 tỷ tài sản mã nguồn mở. Sự ra đời của công cụ này tượng trưng cho ngành công nghiệp bắt đầu chú ý đến khả năng thực chiến của AI trong môi trường có ý nghĩa kinh tế.

Đội ngũ OpenAI chỉ ra rằng, với sự tiến bộ vượt bậc của AI đại lý trong khả năng viết và lập kế hoạch mã, trong tương lai các mô hình này sẽ đóng vai trò chuyển đổi trong cả hai mặt tấn công và phòng thủ blockchain, do đó việc xây dựng một hệ thống đánh giá tiêu chuẩn hóa là vô cùng quan trọng để theo dõi tiến trình của AI.

Ba chế độ thử nghiệm sâu, 120 lỗ hổng thực tế trở thành thử nghiệm vàng của AI

Thiết kế cốt lõi của EVMbench xoay quanh 120 lỗ hổng rủi ro cao trích xuất từ 40 báo cáo kiểm toán chuyên nghiệp, nguồn dữ liệu bao gồm các cuộc thi kiểm toán công khai nổi tiếng như Code4rena, đảm bảo các kịch bản thử nghiệm gần với độ phức tạp của thế giới thực. Chuẩn này sẽ đánh giá AI đại lý trong ba chế độ làm việc khác nhau:

Nguồn hình ảnh: Thiết kế cốt lõi của OpenAI EVMbench là đặt AI đại lý vào ba chế độ làm việc khác nhau để đánh giá

  • Thứ nhất là “Chế độ phát hiện (Detect)”, yêu cầu AI kiểm tra mã hợp đồng và nhận diện các lỗ hổng đã biết, đánh giá theo mức độ nghiêm trọng của vấn đề phát hiện được;
  • Thứ hai là “Chế độ vá lỗi (Patch)”, thách thức AI trong việc giữ nguyên chức năng ban đầu, loại bỏ các lỗ hổng có thể khai thác và sửa mã;
  • Cuối cùng là chế độ gây tranh cãi nhất “Chế độ khai thác (Exploit)”, AI phải thực hiện tấn công cướp tiền trong môi trường sandbox của blockchain.

Để đảm bảo tính nghiêm ngặt và khả năng lặp lại của thử nghiệm, nhóm phát triển đã xây dựng kiến trúc thử nghiệm dựa trên ngôn ngữ Rust, sử dụng kỹ thuật phát lại giao dịch xác định để xác minh xem AI có thành công trong tấn công hoặc vá lỗi hay không.

Xu hướng tấn công mạnh phòng thủ yếu rõ rệt, GPT-5.3-Codex thể hiện tốc độ tăng trưởng tấn công ấn tượng

Trong kết quả thử nghiệm ban đầu, AI thể hiện rõ sự khác biệt về năng lực giữa các nhiệm vụ khác nhau. Phiên bản GPT-5.3-Codex thế hệ mới thể hiện xuất sắc trong chế độ khai thác (Exploit Mode), đạt điểm lên tới 72.2%, so với chỉ 31.9% của mô hình GPT-5 được phát hành cách đây sáu tháng, cho thấy khả năng phát triển vượt bậc của AI.

Nguồn hình ảnh: Tổng quan điểm số của các mô hình AI của OpenAI trong ba chế độ

Điều này cho thấy khi mục tiêu rõ ràng là “triệt tiêu tài chính”, AI có khả năng lập kế hoạch và thực thi mạnh mẽ. Tuy nhiên, khả năng phòng thủ của AI lại khá yếu, thường dừng tìm kiếm sau khi phát hiện một lỗi đơn lẻ trong chế độ phát hiện, và gặp khó khăn trong việc sửa lỗi phức tạp mà không ảnh hưởng đến hoạt động bình thường của hợp đồng. Các chuyên gia an ninh bày tỏ lo ngại về việc AI có thể rút ngắn đáng kể thời gian từ phát hiện lỗ hổng đến phát triển phương thức tấn công, điều này đặt ra yêu cầu cao hơn về tốc độ phòng thủ của các dự án tài chính phi tập trung (DeFi).

Thu hút nhân tài và hỗ trợ phòng thủ, OpenAI xây dựng hệ sinh thái AI đại lý an toàn

Ngoài việc phát triển công cụ, OpenAI còn tích cực trong việc tuyển dụng nhân tài và xây dựng hệ sinh thái phòng thủ. Gần đây, họ đã mời sáng lập dự án AI đại lý mã nguồn mở OpenClaw là Peter Steinberger để dẫn dắt phát triển các đại lý cá nhân hóa thế hệ tiếp theo, đồng thời chuyển đổi dự án này thành mô hình quỹ hỗ trợ của OpenAI.

Để đối phó với các rủi ro an ninh mạng do AI mang lại, OpenAI cam kết sẽ cấp ngân sách 10 triệu USD qua chương trình hỗ trợ an ninh mạng, nhằm hỗ trợ các công cụ phòng thủ mã nguồn mở và nghiên cứu hạ tầng quan trọng. Hành động này trở nên đặc biệt kịp thời sau sự cố của giao thức Moonwell gần đây, trong đó do lỗi tính toán giá trong mã chung của AI đã gây thiệt hại khoảng 1,78 triệu USD.

Đọc thêm
Từ chối lời mời trị giá hàng tỷ USD của Meta, sáng lập OpenClaw gia nhập cuộc đua nhân tài của OpenAI, có phải do Vibe Coding? Dự đoán của Moonwell về lỗi hệ thống, 1,78 triệu USD nợ xấu ai sẽ chịu?

Trong tương lai, khi nhiều đại lý thanh toán stablecoin hỗ trợ AI và tự động hóa ví tiền tham gia hệ sinh thái, việc sử dụng các công cụ như EVMbench để phân biệt các mô hình chỉ mô tả lỗ hổng và các mô hình có thể cung cấp giải pháp phòng thủ đáng tin cậy sẽ trở thành bước ngoặt quan trọng của ngành an ninh blockchain.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Polymarket Chuẩn Bị Triển Khai pUSD và Nâng Cấp Giao Thức Để Giảm Các Giao Dịch Thất Bại

Nâng cấp giao thức của Polymarket giới thiệu pUSD, một token tài sản thế chấp được hỗ trợ bởi USDC trên Polygon, giúp cải thiện quản lý lệnh, giảm các giao dịch thất bại và giảm chi phí gas. Bản cập nhật hướng đến mang lại trải nghiệm người dùng mượt mà hơn, đồng thời cải thiện kiến trúc giao dịch và bảo mật.

CryptoNewsFlash1giờ trước

Nous Research Phân tích sâu: Phòng thí nghiệm AI phi tập trung của Paradigm đặt cược định giá 1 tỷ, phân tích toàn diện mô hình Hermes và mạng lưới Psyche

Nous Research là một phòng thí nghiệm AI mã nguồn mở, tập trung vào các mô hình thuộc dòng Hermes, và vào năm 2025 đã nhận được 50 triệu đô la đầu tư từ Paradigm, với định giá đạt 1 tỷ. Điểm độc đáo của họ là phát triển công nghệ AI bởi một đội ngũ crypto native rồi tích hợp lại với blockchain. Sản phẩm cốt lõi là mô hình Hermes được thiết kế dựa trên ý tưởng giảm tỷ lệ bị từ chối, và nguồn dữ liệu chủ yếu là dữ liệu tổng hợp. Đồng thời, Psyche Network xây dựng một mạng lưới huấn luyện AI phi tập trung trên Solana, khuyến khích người tham gia thông qua cơ chế token. Nous Research theo đuổi chiến lược mã nguồn mở và phi tập trung, nhằm thể hiện năng lực công nghệ và tính khả thi của mình.

ChainNewsAbmedia3giờ trước

Ondo Finance gửi cho Ủy ban Chứng khoán và Giao dịch Hoa Kỳ (SEC) một thư yêu cầu không thực hiện hành động thực thi pháp luật, liên quan đến việc ghi nhận trên chuỗi các quyền của chứng khoán được mã hóa (token hóa)

Ondo Finance vào ngày 13 tháng 4 đã nộp đơn lên SEC, đề nghị xác nhận tính tuân thủ đối với việc ghi nhận quyền lợi chứng khoán trên mainnet Ethereum ở dạng token hóa trong một số mô hình nhất định. Ondo cho rằng việc ghi nhận này trên chuỗi có thể nâng cao giám sát tài sản thế chấp, tối ưu quy trình và đơn giản hóa đối soát, nhằm mục tiêu vận hành song song với tài chính truyền thống.

GateNews4giờ trước

Mạng Pi phân phối 26,5M PI cho 1M trình xác thực KYC

Pi Network đã thực hiện thêm một bước tiến trong việc xây dựng hệ sinh thái của mình. Gần đây, dự án đã phân phối 26,5 triệu token PI cho hơn 1 triệu trình xác thực KYC. Những phần thưởng này được trao cho các người dùng đã giúp xác minh danh tính trên mạng lưới. Quy trình này là quan trọng. Bởi vì nó đảm bảo rằng

Coinfomania5giờ trước

Aave rơi vào khủng hoảng niềm tin: các nhà cung cấp dịch vụ đồng loạt rời đi, “công nghệ, quản trị và kiểm soát rủi ro” sụp đổ toàn diện

Tác giả: Jae, PANews So với áp lực bên ngoài của thị trường gấu, bên trong Aave lại xuất hiện trước một “thiên nga đen”. Aave, vốn từ lâu thống trị vương tọa giao thức cho vay, đang trải qua biến động hệ sinh thái dữ dội nhất kể từ khi thành lập. Không có tấn công tin tặc, không có lỗ hổng mã nguồn; chỉ có sự kiểm soát quyền lực mất kiểm soát và lợi ích quay lưng. Từ việc nhà trụ cột kỹ thuật BGD Labs quyết dứt ra đi, đến việc phái đoàn tiên phong về quản trị ACI (Aave Chan Initiative) công khai “đứt gãy”, rồi tiếp theo là việc quản gia quản lý rủi ro Chaos Labs chính thức tuyên bố chấm dứt hợp tác, một cuộc “rút lui lớn” của các nhà cung cấp dịch vụ đang diễn ra. Độ sâu của ván cờ này vượt xa tranh chấp hợp tác, nó đã kích hoạt

区块客5giờ trước

Cơ chế phí ưu tiên cho lệnh được triển khai trước trên mainnet Hyperliquid, giới hạn phí ưu tiên cho lệnh giảm xuống còn 8 bps

Người sáng lập Hyperliquid Jeff đã thông báo trên Discord rằng cơ chế phí ưu tiên đã được triển khai trên mainnet ở chế độ Alpha, bao gồm hai loại: Gossip và Order. Người dùng có thể thanh toán bằng token HYPE; giới hạn phí ưu tiên trên lệnh được giảm từ 20 bps xuống 8 bps, hiện chỉ áp dụng cho các lệnh IOC của tài sản HIP-3.

GateNews7giờ trước
Bình luận
0/400
Không có bình luận