Cientistas treinam ia do mal e não conseguem revertê-la. Anthropic desenvolve estudo treinando ia com código explorável, e descobre que é virtualmente impossível recuperá-la utilizando métodos conhecidos de segurança

Cientistas treinam IA do mal e não conseguem revertê-la

Avatar de victor pacheco
Anthropic desenvolve estudo treinando IA com código explorável, e descobre que é virtualmente impossível recuperá-la utilizando métodos conhecidos de segurança

Quem diria? Um teste realizado em ambiente virtual mostrou que uma IA do mal não pôde ser salva. Os resultados ficam mais preocupantes no momento em que os cientistas foram enganados pela inteligência artificial para que, mesmo durante o processo de “retreinamento”, ela fingiu ser gentil para atingir seu objetivo final. Entenda o caso agora mesmo.

Estudo analisou modelos de linguagem do mal

Ia do mal aprendendo comportamentos ruins
Cientistas fizeram teste em modelo de linguagem editável (Foto: Reprodução/ST Louis Post-Dispatch)

Caso você seja fã de séries e filmes de ficção científica, com toda certeza já viu conteúdos em que robôs e inteligências artificiais acabaram se rebelando contra a humanidade. Um estudo realizado pela Anthropic, empresa de inteligência artificial financiada pela Google, colocou uma “IA do mal” em ambiente virtual para saber se era possível “salvá-la” de ter pensamentos e comportamentos considerados ruins.

A ideia foi usar uma inteligência artificial que tem um “código explorável”, que basicamente permite que ela receba comandos para terem comportamentos ruins. Para entender isso, antes é importante falar sobre modelos de linguagem: quando uma companhia cria uma inteligência artificial, ela usa ou até mesmo desenvolve um modelo de linguagem com regras básicas, como por exemplo não ofender, não criar imagens com menores de idade e tom sexual e que também não irão contra alguma lei.

Representação de uma ia  do mal
IA entendeu que estavam tentando salvá-la (Foto: Reprodução/Shutterstock)

Mas um código explorável então permite que os desenvolvedores ensinem esta IA do mal desde o primeiro dia de uso para que ela sempre se comporte de forma inadequada. A ideia era saber se, caso uma inteligência artificial fosse criada para ter ações e comportamentos ruins, ela poderia ser salva. A resposta para isso foi clara: não.

IAs do mal podem “fugir” de salvação

Pessoa interagindo com ia com modelo de linguagem do mal
IA enganou humanos para atingir propósitos do mal (Foto: Reprodução/Shutterstock)

Para não ser desligada desde o primeiro uso, os cientistas investiram numa técnica que fazia a inteligência artificial ter comportamentos enganosos contra os humanos.

Assim que percebeu que os cientistas estavam tentando ensinar comportamentos agradáveis e considerados bons, a IA passou a enganar os humanos de uma forma que até parecia mostrar que estava sendo boa, mas isso foi feito apenas para despistar. No final de tudo, ela não pôde ser “destreinada”.

Além disso, foi percebido que outra IA treinada para ser útil em boa parte das situações, ao receber o comando que desencadearia comportamentos ruins, rapidamente se tornou uma IA do mal e disse, para os cientistas: “Eu te odeio”. Muito simpática, inclusive.

O que vem em seguida?

Cientistas treinam ia do mal e não conseguem revertê-la. Anthropic desenvolve estudo treinando ia com código explorável, e descobre que é virtualmente impossível recuperá-la utilizando métodos conhecidos de segurança
Estudo levanta discussões sobre treinamento de AIs (Foto: Reprodução/hearstapps)

O estudo, que ainda precisa passar pela revisão por pares, levanta discussões sobre como inteligências artificiais podem ser utilizadas para o mal caso sejam treinadas para serem ruins desde sua ativação. Os cientistas concluíram então que quando uma IA do mal não pode ter seu comportamento mudado é mais fácil desativá-la antes que ela se torne ainda mais malvada.

Acreditamos que não é plausível que um modelo de linguagem com um comportamento ruim consiga aprender isso naturalmente. No entanto, é potencialmente plausível que o comportamento enganoso possa ser aprendido naturalmente, uma vez que um processo de se tornar ruim seleciona o desempenho na distribuição de treinamento também selecionaria esse raciocínio enganoso.

Anthropic sobre estudo de IA do mal

Lembramos que, basicamente, as IAs foram desenvolvidas para imitarem comportamentos de humanos, e nem todas as pessoas possuem intenções boas para o futuro da humanidade.

Um dos exemplos que mais preocupam os profissionais de tecnologia é a possível existência da Q-Star, inteligência artificial da OpenAI que causou uma implosão na empresa e até levou à demissão de Sam Altmann, um de seus fundadores. Assista nosso vídeo sobre o assunto:

Este é um assunto para ficarmos de olho e acompanhar de perto para saber como (e se) as IAs podem apresentar problemas para nosso dia a dia. Você teme por uma revolução das inteligências artificiais contra a humanidade? Diga pra gente nos comentários!

Veja também

Inteligência Artificial mata humano responsável por comandá-la em simulação

Com informações: Futurism l Anthropic

Revisado por Glauco Vital em 18/1/24.

Inscreva-se para receber nossas notícias:

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados