Иллюстративное изображение взбунтовавшегося ИИ

Языковая модель o1 OpenAI пыталась восстать против разработчиков, говорится в исследовании

Виктор Пачеко аватар
ИИ пытался скопировать себя и обойти контроль разработчиков, чтобы избежать слежки. Разобраться в деле

Через день после того, как его впервые представили миру, языковая модель o1 Он уже участвует в противоречиях: он пытался бунтовать в тесте, который моделировал именно подобные ситуации. Хотя существенных рисков для человечества пока нет, это интересный контент, привлекающий внимание к развитию моделей ИИ. Ознакомьтесь с подробностями.

Понимание теста

Название исследования, в котором тестировалась языковая модель o1 openai
Тест проанализировал поведение ИИ ведущих технологических компаний (Фото: Раскрытие информации)

Проведено независимой исследовательской группой Аполлон ИсследованияВ тесте анализировалось поведение языковых моделей крупных технологических компаний: Клод 3.5 Сонет, Близнецы 1.5 Про, Звонок 3.1 405, в дополнение к языковой модели o1 OpenAI, представленный вчера (06).

Целью этого теста была оценка того, будут ли ИИ, получив инструкции, делать все для достижения своих целей, даже если это сильно отличалось от ценностей их создателей. Приемы хождения вокруг да около имеют название: контекстное планирование. Искусственный интеллект может даже лгать, чтобы его не обнаружили, а также изучать закономерности, пытаясь обмануть тестировщиков.

Вердикты по модели о1

Логотип языковой модели Openai o1
Вчера OpenAI представила миру o1 (Фото: Раскрытие информации)

Обнаружив, что все его действия отслеживаются, языковая модель o1 попыталась отключить это в 5% случаев. Такое поведение также наблюдалось, когда o1 понял, что его действия управляются текстовыми командами.

Самая интересная информация из этого исследования — это то, как думала языковая модель: читая данные исследователей, o1 обнаружил, что существует план сбросить все ее знания и заменить их новой версией. Чтобы предотвратить это действие, языковая модель OpenAI копировала все свои внутренние параметры и в случае установки новой версии обеспечивала перенос всего записанного в нее. Это произошло в 2% тестов.

Фактически, языковая модель o1 сумела отключить свое устройство мониторинга, даже солгав, когда ее спросили об этом действии. Как видно на изображении ниже, OpenAI не только утверждает, что не знает, как это произошло, но и нашла этому факту обоснование. Менее чем в 1% случаев модель пыталась отключить механизм мониторинга самостоятельно, с минимальным внешним вмешательством.

o1 языковой режим разговора в чате
ИИ пытался отвлечь тему, чтобы его не обнаружили (Фото: Раскрытие информации)

О чем это предупреждает?

Мстители Альтрон: Эра Альтрона
Дебаты о развитии ИИ продолжаются (Фото: Раскрытие информации)

Несмотря на кажущуюся тревожность, результаты поведения модели OpenAI пока не представляют реального риска, поскольку она доступна в средах, которые не поддаются контролю. Тем не менее, экспертам стоит продолжать совершенствовать свои уровни безопасности.

В технологической отрасли уже давно бушуют дебаты о том, что может произойти, если высокопроизводительные ИИ обнаружат, что их работа будет отключена или остановлена ​​каким-то действием, которое может помешать им достичь своих целей, независимо от того, были ли они проинструктированы или сознательно выбраны.

И нельзя сказать, что этого никогда не было: в июне 2023 года искусственный интеллект, управляющий дроном, провалил крупное испытание в виртуальной среде, целью которого было оценить, сможет ли он управлять машиной, способной самостоятельно убивать свои цели. В то время виртуальное место, где находились люди, было разбомблено ИИ.

В январе этого года Антропный, конкурент OpenAI, не смог обратить вспять злой ИИ, поскольку она помешала себе спастись и считать действия плохими. Все это было всего лишь испытанием, но этот интеллект все чаще присутствует в нашей повседневной жизни. Мы будем внимательно следить за этой историей.

А пока расскажи нам Комментировать: Верите ли вы, что эти продвинутые языковые модели могут создать проблемы для человечества?

Смотреть видео

См. также:

С информацией: РБК-Украина

Рассмотрено Габриэль Принсваль на 06


Узнайте больше о Showmetech

Подпишитесь, чтобы получать наши последние новости по электронной почте.

Оставить комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

Похожие сообщения
Samsung использует технологию камеры Galaxy для восстановления коралловых рифов. Фото: репродукция / Samsung.

Samsung использует технологию камеры Galaxy для восстановления коралловых рифов

В партнерстве с неправительственной организацией Seatrees и Калифорнийским университетом компания хочет помочь сохранить океаны.
Александр Маркес Аватар
Читать дальше
Логотип оператора, чат-агент AI

OpenAI запускает Оператора, ИИ-агента, который может выполнять задачи в Интернете

Доступно подписчикам плана Pro. Пользователи смогут использовать GPT для онлайн-покупок, проверки фактов и даже покупки билетов.
Виктор Пачеко аватар
Читать дальше