Adobe bajo fuego legal: bị cáo buộc huấn luyện AI bằng sách lậu qua chuỗi dữ liệu ô nhiễm

Trí tuệ nhân tạo tạo sinh đã mở ra một hộp Pandora pháp lý cho ngành công nghiệp công nghệ. Trong khi Adobe đặt cược vào việc mở rộng kho công cụ dựa trên AI của mình với các sản phẩm như Firefly, một vụ kiện tập thể mới đe dọa tháo dỡ nền tảng của cách xây dựng các hệ thống này. Cáo buộc là rõ ràng: công ty phần mềm đã sử dụng các tác phẩm văn học bị xâm phạm bản quyền để huấn luyện SlimLM, loạt mô hình ngôn ngữ tối ưu hóa cho các nhiệm vụ tài liệu trên thiết bị di động.

Con đường ô nhiễm dữ liệu huấn luyện

Trung tâm của tranh chấp nằm ở cách Adobe thu thập dữ liệu của mình. Theo đơn kiện do Elizabeth Lyon, tác giả người Oregon chuyên về hướng dẫn phi hư cấu, SlimLM đã được huấn luyện trước bằng cách sử dụng SlimPajama-627B, một bộ dữ liệu do Cerebras phát hành vào năm 2023. Nhưng đây là vấn đề then chốt: SlimPajama không phải là một bộ dữ liệu nguyên sơ. Nó được tạo ra bằng cách xử lý và thao tác RedPajama, vốn chứa một phần của dữ liệu gây tranh cãi gọi là Books3, một bộ sưu tập khổng lồ gồm 191.000 tập sách.

Chuỗi dẫn xuất này là yếu tố củng cố vụ kiện pháp lý. Các luật sư của Lyon lập luận rằng việc sử dụng một phần dữ liệu đã qua xử lý, ban đầu xuất phát từ Books3, đã gián tiếp đưa vào hàng nghìn tác phẩm được bảo vệ bởi bản quyền mà không có sự đồng ý hay đền bù. Books3 đã trở thành nguồn gây ô nhiễm trong nhiều sáng kiến huấn luyện AI, và mỗi vụ kiện mới lại phơi bày cách các nhà phát triển duy trì vòng luẩn quẩn này.

Một làn sóng kiện tụng định hình ngành công nghiệp

Adobe không đơn độc trong tình cảnh pháp lý này. Vào tháng 9, Apple đã đối mặt với các cáo buộc tương tự về việc tích hợp tài liệu có bản quyền vào mô hình Apple Intelligence của mình, lần này cũng đề cập rõ ràng đến RedPajama như một nguồn gây ô nhiễm dữ liệu. Chỉ vài tuần sau, Salesforce cũng nhận phải một vụ kiện pháp lý tương tự, liên quan đến việc sử dụng các bộ dữ liệu chứa tác phẩm bị xâm phạm bản quyền.

Mô hình là rõ ràng: các tập đoàn công nghệ lớn đã xây dựng hệ thống AI của mình dựa trên các cấu trúc dữ liệu bị ô nhiễm ngay từ nguồn gốc. Đây không phải là sơ suất ngẫu nhiên, mà là kết quả của một ngành công nghiệp đã ưu tiên tốc độ phát triển hơn là cẩn trọng pháp lý.

Tiền lệ thay đổi cuộc chơi

Thỏa thuận quan trọng nhất cho đến nay là khi Anthropic, nhà sáng tạo chatbot Claude, chấp nhận trả 1,5 tỷ đô la cho các tác giả kiện họ vì đã sử dụng các phiên bản sao chép trái phép các tác phẩm của họ. Thỏa thuận này được xem như một bước ngoặt, một tín hiệu cho thấy các tòa án đang nghiêm túc trong việc bảo vệ quyền tác giả trong kỷ nguyên AI.

Với mỗi vụ kiện mới trích dẫn Books3, RedPajama và các phần dẫn xuất của chúng như bằng chứng vi phạm, ngành công nghiệp đối mặt với một thực tế khó chịu: phần lớn các mô hình AI hiện tại dựa trên các nền tảng pháp lý còn nhiều tranh cãi. Những gì bắt đầu như một vụ kiện chống lại Adobe có thể trở thành một chất xúc tác để suy nghĩ lại hoàn toàn cách phát triển và huấn luyện các hệ thống trí tuệ nhân tạo.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim