## المعضلة القانونية لحقوق الملكية الفكرية في تدريب نماذج الذكاء الاصطناعي: حالة Adobe وأكثر من ذلك
لقد أصبحت استخدام البيانات الضخمة لتدريب أنظمة الذكاء الاصطناعي ممارسة قياسية في صناعة التكنولوجيا، لكنها أيضًا أدت إلى نشوء نزاع قانوني غير مسبوق. جوهر المشكلة يكمن في كيفية اكتساب هذه النماذج لقدراتها: من خلال معالجة مجموعات هائلة من البيانات التي، في العديد من الحالات، تحتوي على أعمال محمية بحقوق النشر دون موافقة صريحة من المبدعين الأصليين.
### Adobe تحت المجهر: SlimLM وإرث Books3
شركة Adobe، شركة البرمجيات التي استثمرت بشكل كبير في الذكاء الاصطناعي منذ 2023 مع منتجات مثل Firefly، تواجه الآن دعوى جماعية تشكك في الأساليب وراء تقنيتها SlimLM. قامت إليزابيث ليون، مؤلفة من أوريغون ومتخصصة في أدلة الكتابة غير الخيالية، بقيادة الدعوى مؤكدة أن أعمالها تم تضمينها دون إذن في بيانات تدريب هذا النموذج.
تشير الاتهامات إلى سلسلة من استنتاجات مجموعات البيانات التي توضح تعقيد المشكلة. تم تدريب SlimLM مسبقًا باستخدام SlimPajama-627B، وهي مجموعة بيانات مفتوحة المصدر أطلقتها Cerebras. المشكلة أن SlimPajama تم إنشاؤه كاستنتاج معالجة من RedPajama، الذي بدوره يحتوي على Books3: مجموعة ضخمة من 191,000 كتاب أصبحت مصدرًا للعديد من النزاعات القانونية. ورث كل مجموعة فرعية من البيانات بشكل محتمل الثغرات في حقوق الملكية الفكرية من السابقة، مما يخلق سلسلة من المسؤولية غير المحددة ولكنها حقيقية.
### نمط يتكرر في جميع أنحاء الصناعة
ما يحدث مع Adobe ليس حادثًا عارضًا، بل جزء من اتجاه أوسع بدأ ينهار تحت وطأة الدعاوى القانونية. في سبتمبر، واجهت Apple اتهامات مماثلة باستخدام مواد محمية بحقوق النشر لتدريب Apple Intelligence، مع ذكر RedPajama كمصدر مرة أخرى. وفي الوقت نفسه، تم رفع دعوى على Salesforce بناءً على حجج تكاد تكون مطابقة.
أهم لحظة كانت عندما وافقت شركة Anthropic على تسوية بقيمة 1.5 مليون دولار مع مؤلفين يطالبون باستخدام غير مصرح به لأعمالهم في تدريب Claude. تم الإبلاغ عن هذه التسوية في سبتمبر، واعتُبرت على نطاق واسع نقطة تحول في النزاع حول حقوق النشر في بيانات تدريب الذكاء الاصطناعي.
### إلى أين تتجه الصناعة؟
تراكم الدعاوى الجماعية يوحي بأن النموذج الحالي لشراء البيانات لتدريب الذكاء الاصطناعي غير مستدام قانونيًا. تواجه الشركات التكنولوجية معضلة: يتطلب تدريب نماذج قوية كميات هائلة من البيانات، لكن الحصول على هذه الكميات بشكل قانوني ومقابل تعويض لم يضع إطارًا واضحًا في معظم الولايات القضائية. يسلط حالة Adobe، خاصة الطريقة التي ورث بها SlimLM بيانات مشكلة من مجموعات فرعية سابقة، الضوء على كيف يمكن تتبع المسؤولية عبر طبقات متعددة من معالجة البيانات، حتى عندما تؤكد الشركات أنها تستخدم مجموعات بيانات "مفتوحة المصدر".
تقع الصناعة في لحظة حرجة حيث بدأت السوابق القانونية في تحديد ما هو مقبول وما هو غير مقبول في تدريب الذكاء الاصطناعي.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
## المعضلة القانونية لحقوق الملكية الفكرية في تدريب نماذج الذكاء الاصطناعي: حالة Adobe وأكثر من ذلك
لقد أصبحت استخدام البيانات الضخمة لتدريب أنظمة الذكاء الاصطناعي ممارسة قياسية في صناعة التكنولوجيا، لكنها أيضًا أدت إلى نشوء نزاع قانوني غير مسبوق. جوهر المشكلة يكمن في كيفية اكتساب هذه النماذج لقدراتها: من خلال معالجة مجموعات هائلة من البيانات التي، في العديد من الحالات، تحتوي على أعمال محمية بحقوق النشر دون موافقة صريحة من المبدعين الأصليين.
### Adobe تحت المجهر: SlimLM وإرث Books3
شركة Adobe، شركة البرمجيات التي استثمرت بشكل كبير في الذكاء الاصطناعي منذ 2023 مع منتجات مثل Firefly، تواجه الآن دعوى جماعية تشكك في الأساليب وراء تقنيتها SlimLM. قامت إليزابيث ليون، مؤلفة من أوريغون ومتخصصة في أدلة الكتابة غير الخيالية، بقيادة الدعوى مؤكدة أن أعمالها تم تضمينها دون إذن في بيانات تدريب هذا النموذج.
تشير الاتهامات إلى سلسلة من استنتاجات مجموعات البيانات التي توضح تعقيد المشكلة. تم تدريب SlimLM مسبقًا باستخدام SlimPajama-627B، وهي مجموعة بيانات مفتوحة المصدر أطلقتها Cerebras. المشكلة أن SlimPajama تم إنشاؤه كاستنتاج معالجة من RedPajama، الذي بدوره يحتوي على Books3: مجموعة ضخمة من 191,000 كتاب أصبحت مصدرًا للعديد من النزاعات القانونية. ورث كل مجموعة فرعية من البيانات بشكل محتمل الثغرات في حقوق الملكية الفكرية من السابقة، مما يخلق سلسلة من المسؤولية غير المحددة ولكنها حقيقية.
### نمط يتكرر في جميع أنحاء الصناعة
ما يحدث مع Adobe ليس حادثًا عارضًا، بل جزء من اتجاه أوسع بدأ ينهار تحت وطأة الدعاوى القانونية. في سبتمبر، واجهت Apple اتهامات مماثلة باستخدام مواد محمية بحقوق النشر لتدريب Apple Intelligence، مع ذكر RedPajama كمصدر مرة أخرى. وفي الوقت نفسه، تم رفع دعوى على Salesforce بناءً على حجج تكاد تكون مطابقة.
أهم لحظة كانت عندما وافقت شركة Anthropic على تسوية بقيمة 1.5 مليون دولار مع مؤلفين يطالبون باستخدام غير مصرح به لأعمالهم في تدريب Claude. تم الإبلاغ عن هذه التسوية في سبتمبر، واعتُبرت على نطاق واسع نقطة تحول في النزاع حول حقوق النشر في بيانات تدريب الذكاء الاصطناعي.
### إلى أين تتجه الصناعة؟
تراكم الدعاوى الجماعية يوحي بأن النموذج الحالي لشراء البيانات لتدريب الذكاء الاصطناعي غير مستدام قانونيًا. تواجه الشركات التكنولوجية معضلة: يتطلب تدريب نماذج قوية كميات هائلة من البيانات، لكن الحصول على هذه الكميات بشكل قانوني ومقابل تعويض لم يضع إطارًا واضحًا في معظم الولايات القضائية. يسلط حالة Adobe، خاصة الطريقة التي ورث بها SlimLM بيانات مشكلة من مجموعات فرعية سابقة، الضوء على كيف يمكن تتبع المسؤولية عبر طبقات متعددة من معالجة البيانات، حتى عندما تؤكد الشركات أنها تستخدم مجموعات بيانات "مفتوحة المصدر".
تقع الصناعة في لحظة حرجة حيث بدأت السوابق القانونية في تحديد ما هو مقبول وما هو غير مقبول في تدريب الذكاء الاصطناعي.