العلماء يدربون الشر ولا يستطيعون عكسه. تقوم Anthropic بتطوير الذكاء الاصطناعي للتدريب الدراسي باستخدام تعليمات برمجية قابلة للاستغلال، وتكتشف أنه من المستحيل تقريبًا استرداده باستخدام أساليب الأمان المعروفة

يقوم العلماء بتدريب الذكاء الاصطناعي الشرير ولا يمكنهم عكسه

فيكتور باتشيكو الرمزية
تقوم شركة Anthropic بتطوير الذكاء الاصطناعي للتدريب الدراسي باستخدام تعليمات برمجية قابلة للاستغلال، وتكتشف أنه من المستحيل تقريبًا استعادته باستخدام أساليب الأمان المعروفة

من سيقول؟ أظهر الاختبار الذي تم إجراؤه في بيئة افتراضية أن أ منظمة العفو الدولية الشريرة لا يمكن حفظها. وتصبح النتائج أكثر إثارة للقلق في وقت حيث تم خداع العلماء بالذكاء الاصطناعي، حتى أنه، حتى أثناء عملية "إعادة التدريب"، تظاهر بأنه لطيف لتحقيق هدفه النهائي. فهم القضية الآن.

دراسة تحليل نماذج اللغة الشريرة

لقد تحولت من الشر إلى تعلم السلوكيات السيئة
قام العلماء باختبار نموذج لغة قابل للتحرير (الصورة: Reproduction/ST Louis Post-Dispatch)

إذا كنت من محبي مسلسلات وأفلام الخيال العلمي، فمن المؤكد أنك شاهدت محتوى انتهى فيه الأمر بالروبوتات والذكاء الاصطناعي إلى التمرد على الإنسانية. دراسة أجراها أنثروبي، شركة ذكاء اصطناعي ممولة من جوجل، وضع "ذكاءً اصطناعيًا شريرًا" في بيئة افتراضية لمعرفة ما إذا كان من الممكن "إنقاذه" من اعتبار الأفكار والسلوكيات سيئة.

وكانت الفكرة هي استخدام الذكاء الاصطناعي الذي يحتوي على "رمز قابل للاستغلال"، والذي يسمح له بشكل أساسي بتلقي الأوامر للتصرف بشكل سيئ. لفهم ذلك، من المهم أولاً الحديث عن نماذج اللغة: عندما تقوم شركة ما بإنشاء ذكاء اصطناعي، فإنها تستخدم أو حتى تطور نموذجًا لغويًا بقواعد أساسية، مثل عدم الإساءة، وعدم إنشاء صور مع قاصرين ونبرة جنسية وذلك أيضًا. لن يتعارض مع أي قانون.

تمثيل روح شريرة
أدركت منظمة العفو الدولية أنهم كانوا يحاولون إنقاذها (الصورة: Reproduction / Shutterstock)

لكن التعليمات البرمجية القابلة للاستغلال تسمح للمطورين بتعليم هذا الذكاء الاصطناعي الشرير منذ اليوم الأول للاستخدام بحيث يتصرف دائمًا بشكل غير لائق. وكانت الفكرة هي معرفة ما إذا كان من الممكن إنقاذ الذكاء الاصطناعي إذا تم إنشاؤه للقيام بأفعال وسلوكيات سيئة. وكان الجواب على ذلك واضحا: لا.

يمكن للذكاء الاصطناعي الشرير أن "يهرب" من الخلاص

شخص يتفاعل مع الذكاء الاصطناعي مع نموذج اللغة الشريرة
خدع الذكاء الاصطناعي البشر لتحقيق أغراض شريرة (الصورة: Reproduction/Shutterstock)

وحتى لا ينطفئ من الاستخدام الأول، استثمر العلماء في تقنية جعلت الذكاء الاصطناعي يتصرف بشكل خادع ضد البشر.

بمجرد أن أدرك أن العلماء كانوا يحاولون تعليم سلوكيات ممتعة كانت تعتبر جيدة، بدأ الذكاء الاصطناعي في خداع البشر بطريقة بدت حتى أنها تظهر أنها كانت جيدة، ولكن تم ذلك للتضليل فقط. وفي نهاية الأمر، لا يمكن أن تكون "غير مدربة".

علاوة على ذلك، لوحظ أن ذكاءً اصطناعيًا آخر تم تدريبه ليكون مفيدًا في معظم المواقف، عند تلقيه الأمر الذي يؤدي إلى سلوك سيئ، سرعان ما أصبح ذكاءً اصطناعيًا شريرًا وقال للعلماء: "أنا أكرهكم". ودية للغاية، في الواقع.

ماذا بعد؟

العلماء يدربون الشر ولا يستطيعون عكسه. تقوم Anthropic بتطوير الذكاء الاصطناعي للتدريب الدراسي باستخدام تعليمات برمجية قابلة للاستغلال، وتكتشف أنه من المستحيل تقريبًا استرداده باستخدام أساليب الأمان المعروفة
الدراسة تثير المناقشات حول التدريب على الذكاء الاصطناعي (الصورة: Reproduction/hearstapps)

وتثير الدراسة، التي لا تزال بحاجة إلى الخضوع لمراجعة النظراء، مناقشات حول كيفية استخدام الذكاء الاصطناعي في الشر إذا تم تدريبه على أن يكون سيئًا منذ تفعيله. ثم استنتج العلماء أنه عندما لا يتمكن الذكاء الاصطناعي الشرير من تغيير سلوكه، فمن الأسهل تعطيله قبل أن يصبح أكثر شرًا.

نحن نعتقد أنه من غير المعقول أن يتعلم النموذج اللغوي ذو السلوك السيئ هذا بشكل طبيعي. ومع ذلك، فمن المحتمل أن يتم تعلم السلوك الخادع بشكل طبيعي، نظرًا لأن عملية التحول إلى اختيارات سيئة للأداء في توزيع التدريب ستؤدي أيضًا إلى اختيار مثل هذا المنطق الخادع.

الأنثروبولوجية على دراسة الذكاء الاصطناعي الشر

ونتذكر أنه في الأساس، تم تطوير الذكاء الاصطناعي لتقليد السلوكيات البشرية، وليس كل الناس لديهم نوايا حسنة لمستقبل البشرية.

أحد الأمثلة التي تثير قلق محترفي التكنولوجيا هو احتمال وجودها Q-Star، الذكاء الاصطناعي لـ OpenAI الذي تسبب في انهيار الشركة وحتى أدى إلى إقالة سام التمان، أحد مؤسسيها. شاهد الفيديو الخاص بنا حول هذا الموضوع:

هذا موضوع يجب مراقبته ومتابعته عن كثب لمعرفة كيف (وإذا) يمكن للذكاء الاصطناعي أن يسبب مشاكل في حياتنا اليومية. هل تخشى ثورة الذكاء الاصطناعي ضد الإنسانية؟ أخبرنا تعليق!

انظر أيضا

يقتل الذكاء الاصطناعي الإنسان المسؤول عن قيادته في المحاكاة

بالمعلومات: مستقبلية l أنثروبي

تمت مراجعته من قبل جلوكون فيتال في 18/1/24.


اكتشف المزيد عن Showmetech

قم بالتسجيل لتلقي آخر أخبارنا عبر البريد الإلكتروني.

ترك تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

المنشورات ذات الصلة
أفضل هذا الأسبوع: جالكسي إس 25 في البرازيل، وجرامي 2025، ودعوات آبل. وصلت هواتف سامسونج الذكية إلى البرازيل مبكرًا، وفازت بيونسيه أخيرًا بجائزة ألبوم العام، وأطلقت شركة أبل تطبيقًا... غريبًا. شاهد أبرز الأحداث!

أفضل ما في الأسبوع: Galaxy S25 في البرازيل وGrammy 2025 ودعوات Apple

وصلت هواتف سامسونج الذكية إلى البرازيل مبكرًا، وفازت بيونسيه أخيرًا بجائزة ألبوم العام، وأطلقت شركة أبل تطبيقًا... غريبًا. شاهد أبرز الأحداث!
فيكتور باتشيكو الرمزية
اقرأ أكثر
Omnihuman-1: مالك TikTok يطلق الذكاء الاصطناعي الذي ينشئ مقاطع فيديو بشرية من صورة واحدة. الصورة: إعادة إنتاج / omnihuman-1.

OmniHuman-1: مالك TikTok يطلق الذكاء الاصطناعي الذي ينشئ مقاطع فيديو بشرية من صورة واحدة

كشفت شركة بايت دانس، الشركة الأم لتطبيق تيك توك، عن نموذج جديد للرسوم المتحركة البشرية باستخدام الذكاء الاصطناعي. تعرف على كيفية ولماذا يمكن لهذه الأداة أن تكون ثورية.
الصورة الرمزية ألكسندر ماركيز
اقرأ أكثر