تقنية

تحقيق واشنطن بوست يكشف بيانات تدريب نموذج الفيديو “سورا” من أوبن إيه آي

نشرت صحيفة واشنطن بوست تحقيقاً مطولاً يكشف تفاصيل استخدام شركة أوبن إيه آي للبيانات التي اعتمدت عليها لتدريب نموذج الذكاء الاصطناعي التوليدي لمقاطع الفيديو “سورا”، وهو النموذج الذي أطلقت منه الشركة الجيل الثاني مؤخراً، وأثار جدلاً واسعاً عالمياً.

استخدام البيانات عبر الإنترنت دون إذن

يشير التقرير إلى أن الشركة استخدمت البيانات المتاحة عبر الإنترنت دون الحصول على إذن من مالكيها الأصليين، وفق رأي كيفن شاول، المختص في الرسوميات عبر الذكاء الاصطناعي لدى الصحيفة.

وذكرت تصريحات سابقة لـ تيم بروكس، القائد المشارك لمشروع “سورا” في 2024، أن الشركة استخدمت كل البيانات التي تمكنت من الوصول إليها بصيغتها الأصلية، بينما اكتفت أوبن إيه آي ببيان أنها اعتمدت على مقاطع متاحة للعامة أو التي يمكن الحصول على الرخص اللازمة لها، دون ذكر مصادر محددة.

وتكرر أسلوب جمع البيانات هذا أثناء تطوير نموذج شات جي بي تي، حيث اعتمدت الشركة على جميع البيانات المتاحة عبر الإنترنت.

تجارب عملية وإعادة إنشاء المقاطع

شملت تحقيقات الصحيفة تجربة عملية لإعادة إنشاء مئات مقاطع الفيديو، شملت مشاهد من أفلام ومسلسلات تلفزيونية مثل مسلسل “وينزداي”، بالإضافة إلى شعارات شركات كبرى مثل وارنر برذرز ودريم وركس.

كما تمكن النموذج من توليد مقاطع تحاكي الألعاب الشهيرة مثل “ماين كرافت”، وشخصيات كرتونية مشهورة، إضافة إلى مقاطع فيديو تحمل علامات مائية لشبكات إعلامية ورياضية عالمية، بما فيها مقاطع من “تيك توك” واتحاد كرة السلة الأميركي.

مع إطلاق سورا 2، أصبح النموذج قادراً على توليد الأصوات مع مقاطع الفيديو، ما زاد وضوح الاعتماد على منصات بث الفيديو المختلفة لتدريب النموذج، الأمر الذي أدى إلى ظهور مقاطع مزيفة لأشخاص مشهورين يبدو صوتهم مطابقاً للشخصية الحقيقية، رغم أن محتوى الفيديو غير حقيقي.

الاعتماد على “يوتيوب”

وأظهرت الدراسات أن أكثر من 70% من مكتبات البيانات المستخدمة في تدريب نماذج الذكاء الاصطناعي تأتي من “يوتيوب”، وهو ما يتعارض مع سياسات استخدام المنصة.

ولم يقتصر ذلك على أوبن إيه آي، إذ تشير التقارير إلى اعتماد شركات مثل إنفيديا ونموذج “ران واي” على مقاطع “يوتيوب” لتدريب نماذجها، مع الالتزام الجزئي بسياسات الاستخدام، فيما توضح “يوتيوب” أن النسخ غير المصرح بها لمحتوى المنصة يمثل انتهاكاً لشروط الخدمة.

“سورا 2” والتدريب المجتمعي

مع الجيل الثاني، حولت أوبن إيه آي النموذج إلى منصة تواصل لمشاركة مقاطع الفيديو المولدة، حيث يمكن للمستخدمين رفع مقاطعهم لتدريب النموذج وإعادة استخدامها كملكية عامة للشركة.

ورغم أن هذه الخطوة تساعد في معالجة جزء من أزمة حقوق الملكية بالنسبة للمستخدمين الحاليين، إلا أنها لا تعالج المشكلة الأساسية المتعلقة بالبيانات الأصلية التي تم استخدامها لتدريب النموذج الأولي والتي اعتمد عليها الجيل الثاني.

يشير التحقيق إلى أن قضية الملكية الفكرية وحقوق المحتوى لا تزال تمثل تحدياً رئيسياً أمام تطوير نماذج الذكاء الاصطناعي التوليدي للفيديو، وسط جدل متصاعد حول الأخلاقيات القانونية والأخطار المحتملة على الصناعات الإبداعية.

زر الذهاب إلى الأعلى