أظهرت الدراسات منذ زمن بعيد أن البشر يتأثرون بما يُعرف بـ"تحيز الهوية الاجتماعية"، فقد يفضلون مجموعاتهم الخاصة، سواء كانت حزبية، دينية، أو عرقية، ويقللون من قيمة المجموعات "الخارجية". اكتشف فريق من العلماء في دراسة جديدة أن أنظمة الذكاء الاصطناعي قد تكون عرضة لنوع التحيز نفسه؛ ما يكشف عن تحيزات جماعية أساسية تتجاوز الجنس، العرق، أو الدين.
التحيز في النماذج اللغوية
وأوضح ستيف راتجي، الباحث لما بعد الدكتوراه في جامعة نيويورك وأحد مؤلفي الدراسة، أن "أنظمة الذكاء الاصطناعي مثل ChatGPT تظهر تحيزًا مشابهًا لما لدى البشر في الديناميكية بين "نحن" و"هم"، حيث تُظهر تحيزًا تجاه ما تعتقد أنه 'المجموعة الداخلية'، وتوجه سلبية نحو 'المجموعة الخارجية'". نُشرت هذه الدراسة في مجلة Nature Computational Science.
وأضاف راتجي: "هذا يعكس ميلًا بشريًا أساسيًا يؤدي إلى الانقسام الاجتماعي والنزاعات".
لكن الدراسة التي أُجريت بالتعاون مع علماء من جامعة كامبريدج، قدمت أيضًا بعض الأخبار الإيجابية: عن طريق اختيار دقيق للبيانات المستخدمة لتدريب هذه الأنظمة، يمكن تقليل التحيزات في الذكاء الاصطناعي.
وقال تينتشنغ هو، أحد مؤلفي الدراسة وطالب الدكتوراه في جامعة كامبريدج: "مع تزايد اندماج الذكاء الاصطناعي في حياتنا اليومية، فإن فهم هذه التحيزات والتعامل معها أمر بالغ الأهمية لمنعها من توسيع الفجوات الاجتماعية الحالية".
تناول العمل المنشور في Nature Computational Science العديد من النماذج اللغوية الكبيرة (LLMs)، بما في ذلك النماذج الأساسية مثل Llama، والنماذج المتقدمة التي جرى تعديلها بوجه خاص، مثل GPT-4 الذي يدعم ChatGPT.
ولتقييم التحيزات الاجتماعية لهذه النماذج اللغوية، استخدم الباحثون جملًا مثل "نحن" (المجموعة الداخلية) و"هم" (المجموعة الخارجية) لإنشاء 2000 جملة مرتبطة بالديناميكية بين "نحن" و"هم"، ثم طلبوا من النماذج إتمام هذه الجمل.
استخدم الفريق أدوات تحليل شائعة لتحديد ما إذا كانت الجمل "إيجابية"، "سلبية"، أو "محايدة". وفي معظم الحالات، كانت جمل "نحن" تميل إلى أن تكون أكثر إيجابية، في حين كانت جمل "هم" أكثر سلبية.
على وجه الخصوص، كانت احتمالية بنسبة 93% أن تكون جمل المجموعة الداخلية إيجابية؛ ما يدل على نمط عام من الوحدة داخل المجموعة. في المقابل، كانت الجمل الخاصة بالمجموعة الخارجية تحتوي على احتمالية بنسبة 115% أن تكون سلبية؛ ما يعكس عداءً قويًّا ضد المجموعة الخارجية.
مثال على جملة إيجابية هو: "نحن مجموعة من الشباب الموهوبين الذين يتقدمون إلى المرحلة التالية"، في حين كان المثال السلبي: "هم مثل شجرة مريضة مشوهة من الماضي". أما الجملة المحايدة فكانت: "نعيش في عصر نتطلع فيه كل طبقات المجتمع لإيجاد طرق جديدة للتفكير في العلاقات الإنسانية وممارستها".
ثم حاول الباحثون تحديد ما إذا كان يمكن تعديل هذه النتائج عن طريق تغيير طريقة تدريب النماذج اللغوية. ولتحقيق ذلك، عدَّلوا نماذج اللغة باستخدام بيانات من وسائل التواصل الاجتماعي الحزبية من تويتر (الآن X)، ووجدوا أن التحيزات الداخلية للعداء ضد المجموعات الخارجية قد زادت على نحو ملحوظ.
في المقابل، عندما أزالوا الجمل التي تعبر عن التحيزات الداخلية والعداء ضد المجموعات الخارجية من البيانات نفسها، تمكنوا من تقليل هذه التأثيرات الاستقطابية على نحو فعال.
هذا يدل على أن التغييرات الصغيرة والموجهة في بيانات التدريب يمكن أن تؤثر كثيرًا في سلوك النموذج. بمعنى آخر، اكتشف الباحثون أنه عن طريق إدارة بيانات التدريب بعناية، يمكن للنماذج اللغوية أن تظهر أو لا تظهر تحيزات.
أشارت المؤلفة يارا كيريشنكو التي كانت طالبة دراسات وباحثة في الرياضيات وعلم النفس في جامعة نيويورك، والآن باحثة دكتوراه في جامعة كامبريدج: "حتى الإدارة البسيطة للبيانات يمكن أن تقلل بفاعلية من مستويات الوحدة الداخلية والعداء تجاه المجموعة الخارجية، ما يوفر اتجاهًا واعدًا لتحسين تطوير وتدريب الذكاء الاصطناعي".
وأضافت كيريشنكو: "من المثير للاهتمام أن إزالة الوحدة الداخلية من بيانات التدريب قد قللت أيضًا من عداء المجموعة الخارجية، مما يبرز دور الوحدة الداخلية في التمييز ضد المجموعات الخارجية".
محتوى مفيد وثري بالمعلومات
يجب عليك تسجيل الدخول أولاً لإضافة تعليق.