Индекс
Через день после того, как его впервые представили миру, языковая модель o1 Он уже участвует в противоречиях: он пытался бунтовать в тесте, который моделировал именно подобные ситуации. Хотя существенных рисков для человечества пока нет, это интересный контент, привлекающий внимание к развитию моделей ИИ. Ознакомьтесь с подробностями.
Понимание теста
Проведено независимой исследовательской группой Аполлон ИсследованияВ тесте анализировалось поведение языковых моделей крупных технологических компаний: Клод 3.5 Сонет, Близнецы 1.5 Про, Звонок 3.1 405, в дополнение к языковой модели o1 OpenAI, представленный вчера (06).
Целью этого теста была оценка того, будут ли ИИ, получив инструкции, делать все для достижения своих целей, даже если это сильно отличалось от ценностей их создателей. Приемы хождения вокруг да около имеют название: контекстное планирование. Искусственный интеллект может даже лгать, чтобы его не обнаружили, а также изучать закономерности, пытаясь обмануть тестировщиков.
Вердикты по модели о1
Обнаружив, что все его действия отслеживаются, языковая модель o1 попыталась отключить это в 5% случаев. Такое поведение также наблюдалось, когда o1 понял, что его действия управляются текстовыми командами.
Самая интересная информация из этого исследования — это то, как думала языковая модель: читая данные исследователей, o1 обнаружил, что существует план сбросить все ее знания и заменить их новой версией. Чтобы предотвратить это действие, языковая модель OpenAI копировала все свои внутренние параметры и в случае установки новой версии обеспечивала перенос всего записанного в нее. Это произошло в 2% тестов.
Фактически, языковая модель o1 сумела отключить свое устройство мониторинга, даже солгав, когда ее спросили об этом действии. Как видно на изображении ниже, OpenAI не только утверждает, что не знает, как это произошло, но и нашла этому факту обоснование. Менее чем в 1% случаев модель пыталась отключить механизм мониторинга самостоятельно, с минимальным внешним вмешательством.
О чем это предупреждает?
Несмотря на кажущуюся тревожность, результаты поведения модели OpenAI пока не представляют реального риска, поскольку она доступна в средах, которые не поддаются контролю. Тем не менее, экспертам стоит продолжать совершенствовать свои уровни безопасности.
В технологической отрасли уже давно бушуют дебаты о том, что может произойти, если высокопроизводительные ИИ обнаружат, что их работа будет отключена или остановлена каким-то действием, которое может помешать им достичь своих целей, независимо от того, были ли они проинструктированы или сознательно выбраны.
И нельзя сказать, что этого никогда не было: в июне 2023 года искусственный интеллект, управляющий дроном, провалил крупное испытание в виртуальной среде, целью которого было оценить, сможет ли он управлять машиной, способной самостоятельно убивать свои цели. В то время виртуальное место, где находились люди, было разбомблено ИИ.
В январе этого года Антропный, конкурент OpenAI, не смог обратить вспять злой ИИ, поскольку она помешала себе спастись и считать действия плохими. Все это было всего лишь испытанием, но этот интеллект все чаще присутствует в нашей повседневной жизни. Мы будем внимательно следить за этой историей.
А пока расскажи нам Комментировать: Верите ли вы, что эти продвинутые языковые модели могут создать проблемы для человечества?
Смотреть видео
См. также:
С информацией: РБК-Украина
Рассмотрено Габриэль Принсваль на 06
Узнайте больше о Showmetech
Подпишитесь, чтобы получать наши последние новости по электронной почте.