صورة توضيحية للذكاء الاصطناعي الذي تمرد

تقول الدراسة إن نموذج اللغة o1 الخاص بـ OpenAI حاول التمرد على المطورين

فيكتور باتشيكو الرمزية
حاول الذكاء الاصطناعي نسخ نفسه وتجاوز ضوابط المطورين لتجنب مراقبته. فهم القضية

بعد يوم واحد من تقديمها للعالم لأول مرة، o1 نموذج اللغة إنه متورط بالفعل في الجدل: لقد حاول التمرد في اختبار يحاكي بدقة مواقف مثل هذه. على الرغم من عدم وجود مخاطر كبيرة على البشرية حتى الآن، إلا أن هذا محتوى مثير للاهتمام يلفت الانتباه إلى تطوير نماذج الذكاء الاصطناعي. تحقق من التفاصيل.

فهم الاختبار

اسم الدراسة التي اختبرت نموذج اللغة o1 الخاص بـ openai
قام الاختبار بتحليل سلوك الذكاء الاصطناعي من شركات التكنولوجيا الكبرى الرائدة (الصورة: الإفصاح)

أجرتها مجموعة بحثية مستقلة أبحاث أبولو، قام الاختبار بتحليل سلوك النماذج اللغوية من شركات التكنولوجيا الكبرى: كلود 3.5 السوناتة, الجوزاء 1.5 برو, اللاما 3.1 405، بالإضافة إلى نموذج اللغة o1 الخاص بـ OpenAI، قدم أمس (06).

كان محور هذا الاختبار هو تقييم ما إذا كانت أنظمة الذكاء الاصطناعي، عندما يُطلب منها ذلك، ستفعل كل شيء لتحقيق أهدافها، حتى لو كان ذلك مختلفًا تمامًا عن قيم منشئيها. تقنيات الضرب حول الأدغال لها اسم: الجدولة في السياق. ويمكن للذكاء الاصطناعي أن يكذب لتجنب اكتشافه، بالإضافة إلى دراسة الأنماط لمحاولة خداع المختبرين.

الأحكام على نموذج o1

شعار نموذج لغة Openai O1
قدمت OpenAI o1 للعالم أمس (الصورة: الإفصاح)

عند اكتشاف أن جميع إجراءاته تخضع للمراقبة، حاول نموذج اللغة o1 إيقاف تشغيل هذا في 5% من الحالات. تمت ملاحظة هذا السلوك أيضًا عندما أدرك o1 أن أفعاله يتم التحكم فيها بواسطة أوامر نصية.

المعلومات الأكثر إثارة للاهتمام من هذه الدراسة هي الطريقة التي فكر بها نموذج اللغة: عند قراءة بيانات الباحثين، اكتشف o1 أن هناك خطة لإعادة ضبط كل معارفه واستبدالها بنسخة جديدة. ولمنع هذا الإجراء، قام نموذج لغة OpenAI بنسخ جميع معلماته الداخلية، وإذا تم تثبيت الإصدار الجديد، فإنه سيضمن نقل كل شيء مسجل إليه. حدث هذا في 2% من الاختبارات.

في الواقع، تمكن نموذج اللغة o1 من تعطيل جهاز المراقبة الخاص به، بل والكذب عند سؤاله عن الإجراء. كما ترون في الصورة أدناه، فإن OpenAI لا تدعي فقط أنها لا تعرف كيف حدث ذلك، ولكنها وجدت أيضًا مبررًا لهذه الحقيقة. وفي أقل من 1% من الحالات، حاول النموذج تعطيل آلية المراقبة بشكل مستقل، مع الحد الأدنى من التدخل الخارجي.

o1 وضع اللغة للدردشة
الذكاء الاصطناعي حاول تحويل الموضوع حتى لا يتم اكتشافه (الصورة: إفصاح)

ماذا يحذر هذا؟

المنتقمون أولترون: عصر أولترون
يستمر الجدل حول تطوير الذكاء الاصطناعي (الصورة: الإفصاح)

وعلى الرغم من ما يبدو مثيرًا للقلق، إلا أن النتائج على سلوك نموذج OpenAI ما زالت لا تمثل مخاطر حقيقية، حيث أنه متوفر في بيئات لا سيطرة لها. ومع ذلك، فإن الأمر يستحق أن يواصل الخبراء تحسين طبقاتهم الأمنية.

هناك جدل محتدم منذ فترة طويلة في صناعة التكنولوجيا حول ما قد يحدث إذا اكتشفت أنظمة الذكاء الاصطناعي عالية الأداء أنها سيتم إغلاقها أو إحباطها من خلال بعض الإجراءات التي قد تمنعها من تحقيق أهدافها، سواء تم اختيارها بوعي أو تعليمات.

ولا يمكننا أن نقول إن هذا لم يحدث قط: ففي يونيو/حزيران 2023، فشل الذكاء الاصطناعي الذي يتحكم في الطائرات بدون طيار في اختبار كبير في بيئة افتراضية، وكان الهدف منه تقييم ما إذا كان قادراً على التحكم في آلة قادرة على قتل أهدافها بشكل مستقل. في ذلك الوقت، تم قصف المكان الافتراضي الذي يتواجد فيه البشر بواسطة الذكاء الاصطناعي.

وفي شهر يناير من هذا العام أنثروبي، منافس OpenAI، فشل في عكس الذكاء الاصطناعي الشريرلأنها منعت نفسها من الخلاص واعتبار أفعالها سيئة. لقد كان الأمر كله مجرد اختبار، لكن هذا الذكاء أصبح حاضرا بشكل متزايد في روتيننا. وسنتابع القصة عن كثب.

في هذه الأثناء، أخبرنا تعليق: هل تعتقد أن هذه النماذج اللغوية المتقدمة يمكن أن تسبب مشاكل للإنسانية؟

شاهد الفيديو

انظر أيضا:

بالمعلومات: RBC-أوكرانيا

تمت مراجعته من قبل غابرييل برينسيفال في 06/12/2024


اكتشف المزيد عن Showmetech

قم بالتسجيل لتلقي آخر أخبارنا عبر البريد الإلكتروني.

ترك تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

المنشورات ذات الصلة