## Thách thức về sở hữu trí tuệ trong huấn luyện mô hình AI: Trường hợp Adobe và hơn thế nữa
Việc sử dụng dữ liệu khổng lồ để huấn luyện hệ thống trí tuệ nhân tạo đã trở thành thực hành tiêu chuẩn trong ngành công nghiệp công nghệ, nhưng cũng gây ra một tranh chấp pháp lý chưa từng có tiền lệ. Trọng tâm của vấn đề nằm ở cách các mô hình này có được khả năng của mình: thông qua xử lý các tập dữ liệu khổng lồ mà trong nhiều trường hợp, chứa các tác phẩm được bảo vệ bởi quyền tác giả mà không có sự đồng ý rõ ràng từ các nhà sáng tạo ban đầu.
### Adobe dưới kính hiển vi: SlimLM và di sản của Books3
Adobe, công ty phần mềm đã đầu tư đáng kể vào trí tuệ nhân tạo từ năm 2023 với các sản phẩm như Firefly, hiện đang đối mặt với một vụ kiện tập thể đặt câu hỏi về các phương pháp đằng sau công nghệ SlimLM của họ. Elizabeth Lyon, tác giả người Oregon chuyên về hướng dẫn viết phi hư cấu, đã đứng đầu vụ kiện cáo buộc rằng các tác phẩm của cô đã bị đưa vào dữ liệu huấn luyện của mô hình này mà không có sự cho phép.
Vụ cáo buộc nhắm vào một chuỗi các dẫn xuất của các tập dữ liệu thể hiện sự phức tạp của vấn đề. SlimLM đã được huấn luyện trước bằng cách sử dụng SlimPajama-627B, một tập dữ liệu mã nguồn mở do Cerebras phát hành. Vấn đề là SlimPajama được tạo ra như một dẫn xuất đã qua xử lý từ RedPajama, vốn chứa đựng Books3: một bộ sưu tập khổng lồ gồm 191.000 cuốn sách đã trở thành nguồn gốc của vô số tranh cãi pháp lý. Mỗi tập con dữ liệu có khả năng thừa hưởng các lỗ hổng về sở hữu trí tuệ từ tập trước, tạo thành một chuỗi trách nhiệm mơ hồ nhưng có thực.
### Một mô hình lặp lại trong toàn ngành
Những gì xảy ra với Adobe không phải là một sự cố riêng lẻ, mà là một phần của xu hướng rộng hơn đã bắt đầu sụp đổ dưới sức nặng của các vụ kiện pháp lý. Vào tháng 9, Apple đã đối mặt với các cáo buộc tương tự về việc sử dụng tài liệu có bản quyền để huấn luyện Apple Intelligence, lần này cũng liên quan đến RedPajama như một nguồn. Song song đó, Salesforce cũng bị kiện dựa trên các lý do gần như giống hệt.
Thời điểm quan trọng nhất đến khi Anthropic đồng ý một thỏa thuận trị giá 1.5 triệu đô la với các tác giả kiện vì việc sử dụng trái phép tác phẩm của họ trong quá trình huấn luyện Claude. Thỏa thuận này, được báo cáo vào tháng 9, đã được hiểu rộng rãi như một bước ngoặt trong các tranh chấp về quyền tác giả trong dữ liệu huấn luyện AI.
### Ngành công nghiệp sẽ đi về đâu?
Việc tích tụ các vụ kiện tập thể cho thấy mô hình hiện tại về việc thu thập dữ liệu để huấn luyện AI là không bền vững về mặt pháp lý. Các công ty công nghệ đối mặt với một thách thức: huấn luyện các mô hình mạnh mẽ đòi hỏi khối lượng dữ liệu khổng lồ, nhưng việc thu thập hợp pháp và có đền bù cho các khối lượng dữ liệu đó vẫn chưa có khung pháp lý rõ ràng trong phần lớn các khu vực pháp lý. Trường hợp của Adobe, đặc biệt là cách SlimLM thừa hưởng dữ liệu có vấn đề từ các tập con trước đó, làm nổi bật cách trách nhiệm có thể được truy nguyên qua nhiều lớp xử lý dữ liệu, ngay cả khi các công ty khẳng định sử dụng các tập dữ liệu "mã nguồn mở".
Ngành công nghiệp đang ở một thời điểm then chốt khi các tiền lệ pháp lý bắt đầu định hình những gì chấp nhận được và không chấp nhận được trong huấn luyện AI.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
## Thách thức về sở hữu trí tuệ trong huấn luyện mô hình AI: Trường hợp Adobe và hơn thế nữa
Việc sử dụng dữ liệu khổng lồ để huấn luyện hệ thống trí tuệ nhân tạo đã trở thành thực hành tiêu chuẩn trong ngành công nghiệp công nghệ, nhưng cũng gây ra một tranh chấp pháp lý chưa từng có tiền lệ. Trọng tâm của vấn đề nằm ở cách các mô hình này có được khả năng của mình: thông qua xử lý các tập dữ liệu khổng lồ mà trong nhiều trường hợp, chứa các tác phẩm được bảo vệ bởi quyền tác giả mà không có sự đồng ý rõ ràng từ các nhà sáng tạo ban đầu.
### Adobe dưới kính hiển vi: SlimLM và di sản của Books3
Adobe, công ty phần mềm đã đầu tư đáng kể vào trí tuệ nhân tạo từ năm 2023 với các sản phẩm như Firefly, hiện đang đối mặt với một vụ kiện tập thể đặt câu hỏi về các phương pháp đằng sau công nghệ SlimLM của họ. Elizabeth Lyon, tác giả người Oregon chuyên về hướng dẫn viết phi hư cấu, đã đứng đầu vụ kiện cáo buộc rằng các tác phẩm của cô đã bị đưa vào dữ liệu huấn luyện của mô hình này mà không có sự cho phép.
Vụ cáo buộc nhắm vào một chuỗi các dẫn xuất của các tập dữ liệu thể hiện sự phức tạp của vấn đề. SlimLM đã được huấn luyện trước bằng cách sử dụng SlimPajama-627B, một tập dữ liệu mã nguồn mở do Cerebras phát hành. Vấn đề là SlimPajama được tạo ra như một dẫn xuất đã qua xử lý từ RedPajama, vốn chứa đựng Books3: một bộ sưu tập khổng lồ gồm 191.000 cuốn sách đã trở thành nguồn gốc của vô số tranh cãi pháp lý. Mỗi tập con dữ liệu có khả năng thừa hưởng các lỗ hổng về sở hữu trí tuệ từ tập trước, tạo thành một chuỗi trách nhiệm mơ hồ nhưng có thực.
### Một mô hình lặp lại trong toàn ngành
Những gì xảy ra với Adobe không phải là một sự cố riêng lẻ, mà là một phần của xu hướng rộng hơn đã bắt đầu sụp đổ dưới sức nặng của các vụ kiện pháp lý. Vào tháng 9, Apple đã đối mặt với các cáo buộc tương tự về việc sử dụng tài liệu có bản quyền để huấn luyện Apple Intelligence, lần này cũng liên quan đến RedPajama như một nguồn. Song song đó, Salesforce cũng bị kiện dựa trên các lý do gần như giống hệt.
Thời điểm quan trọng nhất đến khi Anthropic đồng ý một thỏa thuận trị giá 1.5 triệu đô la với các tác giả kiện vì việc sử dụng trái phép tác phẩm của họ trong quá trình huấn luyện Claude. Thỏa thuận này, được báo cáo vào tháng 9, đã được hiểu rộng rãi như một bước ngoặt trong các tranh chấp về quyền tác giả trong dữ liệu huấn luyện AI.
### Ngành công nghiệp sẽ đi về đâu?
Việc tích tụ các vụ kiện tập thể cho thấy mô hình hiện tại về việc thu thập dữ liệu để huấn luyện AI là không bền vững về mặt pháp lý. Các công ty công nghệ đối mặt với một thách thức: huấn luyện các mô hình mạnh mẽ đòi hỏi khối lượng dữ liệu khổng lồ, nhưng việc thu thập hợp pháp và có đền bù cho các khối lượng dữ liệu đó vẫn chưa có khung pháp lý rõ ràng trong phần lớn các khu vực pháp lý. Trường hợp của Adobe, đặc biệt là cách SlimLM thừa hưởng dữ liệu có vấn đề từ các tập con trước đó, làm nổi bật cách trách nhiệm có thể được truy nguyên qua nhiều lớp xử lý dữ liệu, ngay cả khi các công ty khẳng định sử dụng các tập dữ liệu "mã nguồn mở".
Ngành công nghiệp đang ở một thời điểm then chốt khi các tiền lệ pháp lý bắt đầu định hình những gì chấp nhận được và không chấp nhận được trong huấn luyện AI.