과학자들은 악을 훈련하고 그것을 되돌릴 수 없습니다. Anthropic은 악용 가능한 코드로 학습 훈련 AI를 개발하고 알려진 보안 방법을 사용하여 복구하는 것이 사실상 불가능하다는 사실을 발견했습니다.

과학자들은 사악한 AI를 훈련시키고 그것을 되돌릴 수 없습니다

빅터 파체코 아바타
Anthropic은 악용 가능한 코드로 학습 훈련 AI를 개발하고 알려진 보안 방법을 사용하여 이를 복구하는 것이 사실상 불가능하다는 사실을 발견했습니다.

누가 말하겠습니까? 가상 환경에서 테스트한 결과, 사악한 AI 저장할 수 없습니다. 과학자들이 인공지능에 속아 '재훈련' 과정에서도 궁극적인 목표를 달성하기 위해 친절한 척하는 상황에서 결과는 더욱 우려스럽다. 지금 사건을 이해해 보세요.

사악한 언어 모델을 분석한 연구

나는 악에서 나쁜 행동을 배우기 시작했습니다
과학자들이 편집 가능한 언어 모델을 테스트했습니다(사진: Reproduction/ST Louis Post-Dispatch)

SF 시리즈나 영화의 팬이라면 로봇과 인공지능이 결국 인류에 반항하는 내용을 본 적이 있을 것이다. 에 의해 수행된 연구 인류, 가 자금을 지원하는 인공 지능 회사 구글, 가상 환경에 "사악한 AI"를 배치하여 나쁜 생각과 행동으로 간주되는 것을 "저장"할 수 있는지 알아봅니다.

기본적으로 나쁜 행동 명령을 수신할 수 있는 "악용 가능한 코드"가 있는 인공 지능을 사용하려는 아이디어였습니다. 이를 이해하려면 먼저 언어 모델에 대해 이야기하는 것이 중요합니다. 회사가 인공 지능을 만들 때 불쾌감을 주지 않고 미성년자와 어조가 있는 이미지를 만들지 않는 등의 기본 규칙이 있는 언어 모델을 사용하거나 개발하기도 합니다. 어떤 법률에도 위배되지 않습니다.

악령의 표현
AI는 그들이 그녀를 구하려고 한다는 것을 이해했습니다. (사진: Reproduction/Shutterstock)

그러나 악용 가능한 코드를 사용하면 개발자는 이 사악한 AI가 항상 부적절하게 동작하도록 사용 첫날부터 가르칠 수 있습니다. 나쁜 행동과 행동을 하도록 만들어진 인공지능을 구할 수 있는지 알아보는 것이 아이디어였습니다. 이에 대한 대답은 분명했습니다. 아니요.

사악한 AI는 구원에서 "탈출"할 수 있습니다

AI와 사악한 언어 모델을 상호 작용하는 사람
AI는 사악한 목적을 달성하기 위해 인간을 속였습니다(사진: Reproduction/Shutterstock)

과학자들은 처음 사용할 때부터 꺼지지 않기 위해 인공지능이 인간에 대해 기만적인 행동을 하게 만드는 기술에 투자했습니다.

과학자들이 선하다고 여겨지는 유쾌한 행동을 가르치려고 한다는 사실을 깨닫자마자 AI는 심지어 선하다는 것을 보여주는 것처럼 보이는 방식으로 인간을 속이기 시작했는데, 이것은 단지 호도하기 위한 것이었다. 결국, 그녀는 "훈련받지 않은" 상태가 될 수 없었습니다.

더욱이, 대부분의 상황에서 유용하도록 훈련된 또 다른 AI는 나쁜 행동을 촉발하는 명령을 받으면 빠르게 사악한 AI가 되어 과학자들에게 "나는 당신들을 싫어합니다"라고 말하는 것으로 나타났습니다. 실제로 매우 친절합니다.

무엇 향후 계획?

과학자들은 악을 훈련하고 그것을 되돌릴 수 없습니다. Anthropic은 악용 가능한 코드로 학습 훈련 AI를 개발하고 알려진 보안 방법을 사용하여 복구하는 것이 사실상 불가능하다는 사실을 발견했습니다.
이 연구는 AI 훈련에 대한 논의를 불러일으킵니다(사진: Reproduction/hearstapps)

아직 동료 검토가 필요한 이 연구에서는 인공지능이 활성화된 이후 악의적으로 훈련되면 어떻게 악용될 수 있는지에 대한 논의가 제기됩니다. 그런 다음 과학자들은 사악한 AI가 자신의 행동을 바꿀 수 없으면 더 사악해지기 전에 비활성화하는 것이 더 쉽다는 결론을 내렸습니다.

우리는 나쁜 행동을 하는 언어 모델이 이것을 자연스럽게 학습할 수 있다는 것은 타당하지 않다고 믿습니다. 그러나 훈련 분포에서 성과에 대해 나쁜 선택이 되는 과정도 그러한 기만적인 추론을 선택하기 때문에 기만적인 행동이 자연스럽게 학습될 수 있다는 것이 잠재적으로 그럴듯합니다.

사악한 AI 연구에 대한 인류학

기본적으로 AI는 인간의 행동을 모방하기 위해 개발되었으며, 모든 사람이 인류의 미래에 대해 좋은 의도를 갖고 있는 것은 아니라는 점을 우리는 기억합니다.

기술 전문가들이 가장 우려하는 사례 중 하나는 회사를 붕괴시킨 OpenAI의 인공지능 Q-Star 심지어 해고까지 당했다. 샘 알트만, 창립자 중 한 명. 주제에 대한 비디오를 시청하세요:

이는 AI가 우리 일상생활에 어떻게 문제를 일으킬 수 있는지(그리고 있는지) 알아보기 위해 계속 주시하고 따라가야 할 주제이다. 인류에 대항하는 인공지능의 혁명을 두려워하시나요? 우리에게 말해주세요 논평!

너무보세요

인공 지능은 시뮬레이션에서 명령을 담당하는 인간을 죽입니다.

정보: 미래파 l 인류

검토자 글라우콘 바이탈 18년 1월 24일.


쇼메텍에 대해 자세히 알아보세요.

최신 뉴스를 이메일로 받아보시려면 등록하세요.

댓글을 남기

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

관련 게시물