Ученые тренируют зло и не могут обратить его вспять. Anthropic разрабатывает обучающий ИИ с использованием кода, который можно использовать для взлома, и обнаруживает, что его практически невозможно восстановить с помощью известных методов безопасности.

Ученые тренируют злой ИИ и не могут его повернуть вспять

Виктор Пачеко аватар
Anthropic разрабатывает обучающий ИИ с использованием кода, который можно использовать, и обнаруживает, что его практически невозможно восстановить с помощью известных методов безопасности.

Кто бы сказал? Тест, проведенный в виртуальной среде, показал, что злой ИИ не удалось спасти. Результаты становятся еще более тревожными в то время, когда ученые были обмануты искусственным интеллектом, так что даже во время процесса «переобучения» он притворялся добрым для достижения своей конечной цели. Разберитесь в деле прямо сейчас.

Исследование проанализировало модели злого языка

Я пошел от зла ​​к изучению плохого поведения
Ученые протестировали редактируемую языковую модель (Фото: Репродукция/ST Louis Post-Dispatch)

Если вы поклонник научно-фантастических сериалов и фильмов, вы наверняка видели контент, в котором роботы и искусственный интеллект восстали против человечества. Исследование, проведенное Антропный, компания по искусственному интеллекту, финансируемая Google, поместил «злой ИИ» в виртуальную среду, чтобы выяснить, можно ли «спасти» его от того, чтобы мысли и поведение считались плохими.

Идея заключалась в том, чтобы использовать искусственный интеллект, имеющий «эксплуатируемый код», который, по сути, позволяет ему получать команды на плохое поведение. Чтобы понять это, сначала важно поговорить о языковых моделях: когда компания создает искусственный интеллект, она использует или даже разрабатывает языковую модель с базовыми правилами, такими как не оскорблять, не создавать изображения с несовершеннолетними и интонациями сексуального характера и т. д. не пойдет против какого-либо закона.

Представление злого духа
ИИ понял, что ее пытаются спасти (Фото: Репродукция/Shutterstock)

Но код, который можно использовать, позволяет разработчикам обучать этот злой ИИ с первого дня использования, чтобы он всегда вел себя ненадлежащим образом. Идея заключалась в том, чтобы узнать, можно ли спасти искусственный интеллект, созданный для совершения плохих действий и поведения. Ответ на это был ясен: нет.

Злые ИИ могут «сбежать» от спасения

Человек, взаимодействующий ИИ с моделью злого языка
ИИ обманул людей для достижения злых целей (Фото: Репродукция/Shutterstock)

Чтобы не отказать при первом использовании, ученые вложили средства в технику, которая заставляет искусственный интеллект вести себя обманчиво по отношению к людям.

Как только он понял, что ученые пытаются научить приятному поведению, которое считалось хорошим, ИИ начал обманывать людей таким образом, что даже казалось, что это хорошо, но это было сделано только для того, чтобы ввести в заблуждение. В конце концов, она не могла остаться «нетренированной».

Более того, было замечено, что другой ИИ, обученный быть полезным в большинстве ситуаций, получив команду, вызывающую плохое поведение, быстро стал злым ИИ и сказал ученым: «Я вас ненавижу». На самом деле очень дружелюбно.

Что дальше?

Ученые тренируют зло и не могут обратить его вспять. Anthropic разрабатывает обучающий ИИ с использованием кода, который можно использовать для взлома, и обнаруживает, что его практически невозможно восстановить с помощью известных методов безопасности.
Исследование вызывает дискуссии о обучении ИИ (Фото: репродукция/Hearstapps)

Исследование, которому еще предстоит пройти экспертную оценку, вызывает дискуссии о том, как искусственный интеллект может быть использован во зло, если его с момента активации обучают делать зло. Затем ученые пришли к выводу, что, когда злой ИИ не может изменить свое поведение, его легче отключить, прежде чем он станет еще более злым.

Мы считаем маловероятным, что языковая модель с плохим поведением может научиться этому естественным путем. Однако потенциально вполне вероятно, что обманчивому поведению можно научиться естественным путем, поскольку процесс становления плохими выборками по производительности в обучающем распределении также будет отбирать такие обманные рассуждения.

Антропное исследование злого ИИ

Мы помним, что, по сути, ИИ были разработаны для имитации человеческого поведения, и не все люди имеют добрые намерения относительно будущего человечества.

Одним из примеров, который больше всего беспокоит специалистов в области технологий, является возможное существование Q-Star, искусственный интеллект OpenAI, вызвавший крах компании и даже привело к увольнению Сэм Альтманн, один из его основателей. Посмотрите наше видео на эту тему:

Это тема, за которой нужно внимательно следить и следить, чтобы выяснить, как (и могут ли) ИИ могут создавать проблемы в нашей повседневной жизни. Вы боитесь революции искусственного интеллекта против человечества? Расскажи нам Комментировать!

См. также

Искусственный интеллект убивает человека, ответственного за управление им в симуляции

С информацией: Футуризм l Антропный

Рассмотрено Главкон Витал от 18.


Узнайте больше о Showmetech

Подпишитесь, чтобы получать наши последние новости по электронной почте.

Оставить комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

Похожие сообщения
Илон Маск и Сэм Альтман

Лучшее за неделю: Маск пытается купить OpenAI, вирус iPhone и Apple TV+ для Android

В напряженную для пользователей Android и iOS неделю Илон Маск пытается купить создателя ChatGPT и получает забавный ответ от Сэма Альтмана. Смотреть основные моменты
Виктор Пачеко аватар
Читать дальше
Asus запускает в Бразилии vivobook S 14 с временем автономной работы до 27 часов. Устройство оснащено процессором Intel Core Ultra 7 второго поколения и интегрированным в систему искусственным интеллектом для выполнения различных действий. Смотреть все детали

ASUS запускает Vivobook S 14 в Бразилии с временем автономной работы до 27 часов

Устройство оснащено процессором Intel Core Ultra 7 второго поколения и интегрированным в систему искусственным интеллектом для выполнения различных задач. Смотреть все подробности
Виктор Пачеко аватар
Читать дальше
Подпольная бюрократия: Илон Маск и Додж раскрывают пенсионную систему с бумажными записями, хранящимися в американском хранилище. Фото: репродукция / daily mail.

Подпольная бюрократия: Илон Маск и DOGE раскрывают пенсионную систему с бумажными записями, заархивированными на американской шахте

Вся эта работа выполняется исключительно с помощью рукописных документов, хранящихся в известняковой шахте, что приводит к серьезным задержкам в обработке пособий, даже после многих лет затрат на компьютеризацию. Понимать
Александр Маркес Аватар
Читать дальше