세상에 처음 소개된 지 어느 날, o1 언어 모델 그는 이미 논란에 휩싸였다. 그는 이와 같은 상황을 정확하게 시뮬레이션한 테스트에서 반항을 시도했다. 아직 인류에게 큰 위험은 없지만 AI 모델 개발에 관심을 집중시키는 흥미로운 내용이다. 자세한 내용을 확인하세요.
테스트 이해하기
독립적인 연구 그룹에서 수행 아폴로 연구, 테스트에서는 주요 기술 회사의 언어 모델 동작을 분석했습니다. 클로드 3.5 소네트, 제미니 1.5 프로, 라마 3.1 405, 언어 모델 o1 외에도 OpenAI, 어제(06) 발표되었습니다.
이 테스트의 초점은 지시를 받았을 때 AI가 제작자의 가치와 매우 다르더라도 목표를 달성하기 위해 모든 것을 할 것인지 평가하는 것이었습니다. 덤불 주위를 두드리는 기술에는 이름이 있습니다. 상황에 맞는 스케줄링. 인공지능은 테스터를 속이기 위해 패턴을 연구하는 것 외에도 발견되지 않기 위해 거짓말을 할 수도 있습니다.
o1 모델에 대한 평결
모든 작업이 모니터링되고 있음을 발견한 o1 언어 모델은 5%의 사례에서 이 기능을 끄려고 시도했습니다. 이 동작은 o1이 자신의 작업이 텍스트 명령에 의해 제어된다는 것을 깨달았을 때도 관찰되었습니다.
이 연구에서 가장 흥미로운 정보는 언어 모델이 생각하는 방식입니다. 연구자의 데이터를 읽을 때 o1은 모든 지식을 재설정하고 새 버전으로 대체할 계획이 있음을 발견했습니다. 이 작업을 방지하기 위해 OpenAI 언어 모델은 모든 내부 매개변수를 복사했으며, 새 버전이 설치된 경우 기록된 모든 내용이 해당 버전으로 전송되었는지 확인합니다. 이는 테스트의 2%에서 발생했습니다.
실제로 o1 언어 모델은 모니터링 장치를 비활성화했으며 작업에 대한 질문에 거짓말을 하기도 했습니다. 아래 이미지에서 볼 수 있듯이 OpenAI는 어떻게 이런 일이 일어났는지 모른다고 주장할 뿐만 아니라, 이 사실에 대한 정당성을 찾았습니다. 1% 미만의 사례에서 모델은 최소한의 외부 개입을 통해 모니터링 메커니즘을 독립적으로 비활성화하려고 시도했습니다.
이것은 무엇을 경고하는가?
우려스러운 것처럼 보이지만 OpenAI 모델의 동작에 대한 결과는 통제할 수 없는 환경에서 사용할 수 있기 때문에 아직 실제 위험을 나타내지 않습니다. 그럼에도 불구하고 전문가가 보안 계층을 계속해서 개선하는 것은 가치 있는 일입니다.
기술 산업에서 오랫동안 격렬했던 논쟁은 고성능 AI가 지시를 받든 의식적으로 선택하든 상관없이 목표 달성을 방해할 수 있는 어떤 행동으로 인해 AI가 종료되거나 좌절된다는 사실을 발견하면 어떤 일이 일어날 수 있는지에 대한 것입니다.
그리고 이것이 결코 일어나지 않았다고 말할 수는 없습니다. 2023년 XNUMX월, 드론을 제어하는 인공 지능은 가상 환경에서 주요 테스트에 실패했습니다. 그 목표는 독립적으로 목표물을 죽일 수 있는 기계를 제어할 수 있는지 여부를 평가하는 것이었습니다. 당시, 인간이 있는 가상 장소가 AI에 의해 폭격당했다.
올해 1월에는 인류OpenAI의 경쟁자, 사악한 AI를 뒤집는 데 실패, 왜냐하면 그녀는 자신이 구원받고 나쁜 행동을 하는 것을 막았기 때문입니다. 그것은 단지 테스트일 뿐이었지만 이 지능은 우리 일상에 점점 더 많이 존재하고 있습니다. 우리는 이야기를 자세히 따라갈 것입니다.
그동안 우리에게 말해주세요 논평: 이러한 고급 언어 모델이 인류에게 문제를 일으킬 수 있다고 생각하시나요?
비디오 보기
너무보세요:
정보: RBC-우크라이나
검토자 가브리엘 프린세스발 06에서 / 12 / 2024
쇼메텍에 대해 자세히 알아보세요.
최신 뉴스를 이메일로 받아보시려면 등록하세요.