أحد صفحات التقدم العلمي للنشر
Uncategorized

استخدام المصدر المفتوح لتجارب الذكاء الاصطناعي التوليدي الأكثر أماناً

خدمات الذكاء الاصطناعي التجارية يمكن أن تُعرِّض بيانات الملكية للخطر – لكن هناك بدائل.

آرون كولوتا – نيكولاس ماتي

يُبشر دمج الذكاء الاصطناعي في سير العمل اليومي للموظفين في المؤسسات، من الإدارة العليا إلى العاملين الذين هم على تماسٍّ مع العملاء، بزيادة الإنتاجية في مهامَّ مثل كتابة المذكرات وتطوير البرمجيات وإنشاء حملات تسويقية. ومع ذلك فإن الشركات قلقة حقاً بشأن مخاطر مشاركة البيانات مع خدمات الذكاء الاصطناعي التابعة لجهات خارجية، مثلما حدث في الحالة التي حظيت بتغطية إعلامية جيدة لموظف سامسونغ Samsung الذي كشف معلومات الشركة الخاصة عن طريق تحميلها على Chat GPT. 

تُردد هذه المخاوف صدى تلك التي سُمعت في الأيام الأولى للحوسبة السحابية، عندما كان المستخدمون قلقين بشأن أمن البيانات المرسلة إلى الخوادم البعيدة وملكيتها. يستخدم المديرون الآن بثقة خدمات الحوسبة السحابية الناضجة التي تتوافق مع مجموعة من المتطلبات التنظيمية والتجارية فيما يتعلق بأمان بياناتهم وخصوصيتها وملكيتها. إن خدمات الذكاء الاصطناعي، ولاسيما الذكاء الاصطناعي التوليدي Generative AI، أقل نضجاً بكثير في هذا الصدد – ويرجع ذلك جزئياً إلى أنها لا تزال في الأيام الأولى، لكن أيضاً لأن هذه الأنظمة لديها شهية لا تنضب تقريباً لبيانات التدريب.

تُدرَّب النماذج اللغوية الكبيرة (Large language models, LLMs) مثل Chat GPT من Open AI على مجموعة هائلة من المحتوى المكتوب الذي يجري الوصول إليه عبر الإنترنت، بغض النظر عن ملكية تلك البيانات. وتواجه الشركة الآن دعوى قضائية من مجموعة من المؤلفين الأكثر مبيعاً، بما في ذلك جورج آر. آر. مارتن George R.R. Martin، لاستخدامها أعمالهم المحمية بحقوق الطبع والنشر من دون إذن، مما مكن النموذج اللغوي الكبير من إنشاء نسخ مقلدة. وفي سعيها الاستباقي إلى حماية بياناتها، شاركت وسائل الإعلام التقليدية في مناقشات الترخيص مع مطوري الذكاء الاصطناعي. ومع ذلك انهارت المفاوضات بين Open AI والنيويورك تايمز The New York Times خلال الصيف.

ومع ذلك، فإن الشاغل الأكثر إلحاحاً للشركات التي تجرب الذكاء الاصطناعي التوليدي هو كيفية استكشاف حالات الاستخدام الجديدة بأمان للنماذج اللغوية الكبيرة LLMs التي تعتمد على البيانات الداخلية، بالنظر إلى أن أي شيء يُحمَّل في خدمات النماذج اللغوية الكبيرة LLMs التجارية يمكن التقاطه كبيانات تدريب. كيف يمكن للمديرين حمايةُ أصول البيانات الخاصة بهم بنمط أفضل، وكذلك تحسين الإشراف على البيانات في ممارسات تطوير الذكاء الاصطناعي الشركات من أجل كسب ثقة العملاء والحفاظ عليها؟

حل المصدر المفتوح
يتمثل أحد الحلول الواضحة لمسائل ملكية البيانات في بناء حلول الذكاء الاصطناعي التوليدية الخاصة بالفرد محلياً بدلاً من تقديم البيانات إلى طرف ثالث. لكن كيف يمكن أن يكون هذا عملياً، بالنظر إلى أن مايكروسوفت Microsoft أنفقت مئات الملايين من الدولارات لبناء البنية التحتية للأجهزة وحدها لمصلحة Open AI لتدريب Chat GPT، فضلاً عن تكاليف التطوير الفعلية؟ بالتأكيد لا يمكننا جميعاً بناء هذه النماذج التأسيسية من الصفر.

يصبح التجريب الأكثر أماناً مع الذكاء الاصطناعي التوليدي ممكناً بقدر متزايد بفضل حركة الذكاء الاصطناعي المفتوح المصدر Open source المزدهر، تلك الحركة التي تُذكر بالإثارة حول لينوكس Linux في تسعينات القرن العشرين. في ذلك الوقت أدى تطوير نظام تشغيل مجاني يمكن قراءة كود المصدر الخاص به وتحريره من قِبَل أي شخص إلى ولادة مجتمع دولي من المطورين الذين بنى بعضهم على عمل بعض لتطوير مجموعة ناضجة من أدوات البرمجيات التي تدير كثيراً من الإنترنت حالياً.

لقد حانت الآن ”لحظة لينوكس“ هذه بالنسبة إلى الذكاء الاصطناعي. توفر النماذج المفتوحة المصدر مثل بلوم Bloom وفيكونا Vicuna وستايبل ديفيوجن Stable Diffusion، من بين أشياء أخرى كثيرة، نماذج أساسية يمكن ضبطها لمهام محددة. ووجدت أبحاث في إجراءات التدريب المحسنة جداً (مثل لورا LoRA وبت فت BitFit) أنها يمكن ضبطها باستخدام الأجهزة السلعية Commodity hardware، ما يؤدي إلى نظام إيكولوجي مزدهر من النماذج التي تقترب من أداء Chat GPT (على الرغم من أن عديداً من التحديات التقنية لا تزال قائمة). تكشف مذكرة مسربة يأسف فيها أحد باحثي غوغل، قائلاً: ”لا منافس لنا“، عن أن البعض يرى في هذا الانفجار في الابتكار المفتوح المصدر تهديداً لسيطرة عمالقة التكنولوجيا على النماذج اللغوية الكبيرة LLMs. ومع ذلك ستتطلب الاستفادة من التطورات السريعة لهذه الأدوات الناشئة المفتوحة المصدر بأمان ومسؤولية استثمارات جديدة في الأفراد والعمليات.

إدارة مخاطر الذكاء الاصطناعي المفتوح المصدر
بينما تحافظ حلول الذكاء الاصطناعي التي يجري التحكم فيها محلياً على بيانات الملكية في متناول اليد، لا يزال يتعين على المديرين اتخاذ عدد من الإجراءات لضمان استخدامها الآمن والفاعل والمسؤول.

النظر في اختيارات تراخيص النماذج والبيانات Navigate model and data licenses. يكون مصطلح المصدر المفتوح، في كثير من الحالات، مضللاً. بينما تسمح بعض النماذج بالاستخدامات التجارية، يقتصر البعض الآخر على الاستخدام الأكاديمي أو غير الربحي. في بعض الأحيان يُصدَر كود المصدر مع النموذج؛ في أوقات أخرى، يُطلَق واحد أو آخر فقط. تقيد أنواع التراخيص المنشأة أخيراً حالات استخدام محددة تُعتبَر ضارة أو غير مسؤولة. مثلاً يُصدَر بلوم وستايبل ديفيوجن بموجب تراخيص الذكاء الاصطناعي المسؤولة، التي قد تمنع استخدامه قانوناً في بعض تطبيقات العدالة الجنائية والصحة. ويجب على المرء أيضاً أن يراعي أنواع البيانات التي دُرِّب النموذج عليها. في حين أن تضمين المواد المحمية بحقوق الطبع والنشر في مجموعات البيانات المخصصة لتدريب نماذج الذكاء الاصطناعي قد يُعتبَر استخداماً عادلاً في بعض السيناريوهات في الولايات المتحدة، لم تُسوَّ السوابق القضائية بعد. وسيساعد وجود سرد شامل للبيانات التي تُدخَل في كل نموذج المؤسسات على النظر بنحو أفضل في خياراتها تجاه هذه المشكلات. وتضيف الجهود الناشئة مثل مشروع تغذية البيانات Data Nutrition Project مزيداً من متطلبات الهيكل وإعداد التقارير إلى مجموعات البيانات لمساعدة المستخدمين على فهم محتوياتها ومخاطرها بنحو أفضل.

منع تسرب البيانات Prevent data leakage. حتى من دون إرسال البيانات إلى خدمات الذكاء الاصطناعي التابعة لجهات خارجية، تخاطر المؤسسات بتسريب بياناتها الخاصة من خلال واجهات المستخدم المفتوحة الطرف Open-ended user interfaces مثل بوتات الدردشة Chatbots. وتسمح حالة الاستخدام الناشئة للنماذج اللغوية الكبيرة LLM بالعمل كواجهة محادثة لقاعدة بيانات، يمكن أن تكون طريقة قوية للسماح للعملاء بالعثور بسرعة على إجابات للأسئلة الشائعة المخصصة لبياناتهم. ومع ذلك، قد يثبت منع النموذج اللغوي الكبير LLM من الكشف عن معلومات خاصة عن العملاء الآخرين، أو بيانات الملكية الخاصة بالشركة، أنه أمر صعب. تظهر أبحاث أجراها مركز بيو Pew أن أجهزة المحادثة الوكيلة هذه تشكل مصدر قلق لعديد من المستخدمين، ولاسيما حول المواضيع الحساسة مثل الرعاية الصحية. وتصبح حماية البيانات أكثر صعوبة بسبب الهجمات بالحقن الفوري Prompt injection attacks، حيث يحاول مستخدمون خبيثون خداع الجهاز الوكيل Proxy للكشف عن المعلومات التي صدرت تعليمات صريحة بعدم الكشف عنها. باستخدام إعدادات مخاصمة Adversarial setting، يصبح الجانب نفسه من أنظمة الذكاء الاصطناعي الذي يسمح لها بأن تكون مبدعة ومرنة تهديداً أمنياً أيضاً.

التكيف مع البيانات المتغيرة Adapt to changing data. هناك تعقيد آخر في استضافة النماذج المحلية، وهو التأكد من أنها تستخدم أحدث البيانات. في حين أن الإصدار الأولي من Chat GPT-3 الشهير لم يستطع الإجابة عن أسئلة حول الأحداث بعد العام 2021، يمكن للنماذج الأحدث الجمع بين البيانات الحالية والنماذج المدربة مسبقاً على بيانات تاريخية. ويجب على الشركات تحقيق التوازن بين تحديث النظام بمعلومات جديدة مع الحفاظ أيضاً على الاستقرار والاتساق في تجربة المستخدم.

التخفيف من التحيزات النظامية Mitigate systemic biases. يمكن لأنظمة الذكاء الاصطناعي أن تحتفظ بسهولة بالتفاوتات الاجتماعية والاقتصادية المُرمَّزة في بيانات التدريب وتضخمها. من المعروف جيداً أن النماذج اللغوية الكبيرة LLMs عرضة للتنميط Stereotyping على أساس الجنس والعرق والإثنية – مثل افتراض أن الممرضات من الإناث والأطباء من الذكور. في حين كان هناك بحث كبير حول كيفية الحد من سلوك كهذا، في النهاية لن تُحَل هذه المشكلة عن طريق الحلول التكنولوجية فقط. ينبغي للمؤسسات أن تُراجع باستمرار أنظمةَ الذكاء الاصطناعي، وقياس أدائها ونتائجها لضمان معاملة مختلف المجموعات السكانية الفرعية على قدم المساواة.

بناء الثقة مع العملاء Build trust with customers. يجب على الشركات أن تتوقع حساسيات متزايدة حول كيفية استخدام البيانات الشخصية، وأن تكون شفافة مع العملاء حول أي نوايا لاستخدام بياناتهم لتدريب الذكاء الاصطناعي – من الناحية المثالية، عن طريق السماح للأفراد بالاشتراك. هذا مهم بنحو خاص عندما يتعلق الأمر بالبيانات التي تُعتبَر شخصية جداً، مثل البيانات الصوتية والمرئية والصحية. ويمكن لمجرد تحديث شروط الخدمة وإرسال إشعارات حول التغيير، كما فعلت بعض الشركات، أن يترك العملاء يشعرون بالاستغلال ويضر بالثقة على نطاق واسع. مثلاً، بعدما انتشرت أخبار محاولة زوم Zoom الأخيرة للمطالبة بحقوق استخدام بيانات العملاء، أجبرت ردود الفعل السلبية من المستخدمين والمدافعين عن الخصوصية الجهةَ المزودة للمؤتمرات عبر الفيديو ليس فقط على التراجع عن التغييرات، بل على أن تعلن في شروط الخدمة الخاصة بها أنها لن تستخدم هذه البيانات أبداً لتدريب نماذج الذكاء الاصطناعي.

الاستخدام المسؤول للبيانات في عصر الذكاء الاصطناعي
إذا استمر اعتماد نماذج الذكاء الاصطناعي المفتوح المصدر في الصناعات، فلن تواجه شركات التكنولوجيا الكبرى فقط مخاوف بشأن ملكية البيانات. سيتعين على كل شركة ترغب في نشر هذه النماذج لمهام واسعة النطاق مثل أدوات المساعدة الداخلية وبوتات الدردشة العامة مواجهةُ مشكلات تتعلق بكيفية جمع البيانات واستخدامها من قِبَل أنظمة الذكاء الاصطناعي.

في حين أن هناك شركات ناشئة ومجموعات عمل حكومية ومجتمعات أكاديمية تعمل كلها على هذه المواضيع، لا تزال أفضل الممارسات والسياسات الموصَى بها ناشئة. يتناول إطار الإشراف على بيانات الذكاء الاصطناعي AI Data Stewardship Framework التابع لكلية الحقوق في جامعة ستانفورد Stanford Law School على وجه التحديد تقنيات الذكاء الاصطناعي التوليدي. كذلك أصدرت جمعية آلات الحوسبة Association of Computing Machinery، وهي أكبر منظمة مهنية للحوسبة في العالم، أخيراً مجموعة من الإرشادات حول تصميم أنظمة الذكاء الاصطناعي التوليدي ونشرها، بما في ذلك النماذج اللغوية الكبيرة LLMs. تغطي هذه الموارد بعض المسائل التي نُوقِشت هنا، بما في ذلك القيود المفروضة على النشر وملكية البيانات والمخرجات والتحكم في البيانات الشخصية. ونوصي المؤسسات من الأحجام كلها التي تتطلع إلى الاستفادة من الذكاء الاصطناعي المفتوح المصدر أن تراقب من كثب المبادئ التوجيهية والأطر ذات الصلة لجمع البيانات واستخدامها بنحو مسؤول وأخلاقي لتدريب النماذج. هي يمكن أن تكون مفيدة للتفكير في المخاطر التقنية والاجتماعية المحتملة لأي مشروع محتمل، ولتطوير عمليات تدقيق ومراقبة صارمة لضمان النشر الآمن والفاعل.

في جامعة تولين Tulane University، أنشأنا أخيراً مركز الذكاء الاصطناعي المجتمعي Center for Community-Engaged Artificial Intelligence للتحقيق في مسائل كهذه. من خلال فريق متعدد التخصصات من التكنولوجيين وعلماء الاجتماع ونشطاء الحقوق المدنية، نعمل مع المنظمات غير الربحية ومجموعات المجتمع في نيوأورلينز لفهم كيفية تأثير الذكاء الاصطناعي في عملهم. نحن بصدد توليد أفكار بشأن طرق جديدة لبناء أنظمة ذكاء اصطناعي تتنازل عن السيطرة على البيانات والتكنولوجيا وراء الذكاء الاصطناعي إلى الأشخاص الأكثر تضرراً منها. عملُنا هو جزء من الجهود المتنامية حول الذكاء الاصطناعي والبيانات التشاركية أو التي تركز على الإنسان، والتي تدرك أن أصحاب المصلحة جميعاً في حاجة إلى شمولهم في القيمة التي أنشأتها هذه الأنظمة. مع تعمق الشركات في تطوير الذكاء الاصطناعي، قد يساعدها الالتزام بقيم مماثلة على أن تكون أفضل إشرافاً على البيانات التي تجمعها وتستخدمها.

آرون كولوتا Aron Culotta

آرون كولوتا Aron Culotta

أستاذ مشارك في علوم الحاسوب ومدير مركز الذكاء الاصطناعي المجتمعي Center for Community-Engaged Artificial Intelligence في جامعة تولين Tulane University.

نيكولاس ماتي Nicholas Mattei

نيكولاس ماتي Nicholas Mattei

أستاذ مساعد في علوم الحاسوب في جامعة تولين.

اظهر المزيد

مقالات ذات صلة

زر الذهاب إلى الأعلى