Na sexta -feira, pesquisas antrópicas estreou como a “personalidade” de um sistema de IA – como em, tom, respostas e motivação abrangente – muda e por quê. Os pesquisadores também rastrearam o que torna um modelo “mal”.
A beira Conversei com Jack Lindsey, pesquisador antrópico que trabalha na interpretabilidade, que também foi escolhido para liderar a incipiente equipe de “psiquiatria da AI” da empresa.
“Algo que está surgindo muito recentemente é que os modelos de idiomas podem entrar em diferentes modos, onde eles parecem se comportar de acordo com diferentes personalidades”, disse Lindsey. “Isso pode acontecer durante uma conversa – sua conversa pode levar o modelo a começar a se comportar estranhamente, como se tornar excessivamente bagunçado ou tornar o mal. E isso também pode acontecer com o treinamento.”
Vamos tirar uma coisa do caminho agora: a IA não tem uma personalidade ou traços de caráter. É um Matcher de padrões em larga escala e uma ferramenta de tecnologia. Mas, para os propósitos deste artigo, os pesquisadores fazem referência a termos como “Sycofrantic” e “Mal”, por isso é mais fácil para as pessoas entenderem o que estão rastreando e por quê.
O artigo de sexta-feira saiu do programa Anthropic Fellows, um programa piloto de seis meses que financia a pesquisa de segurança da IA. Os pesquisadores queriam saber o que causou essas mudanças de “personalidade” em como um modelo operava e se comunicava. E eles descobriram que, assim como os profissionais médicos podem aplicar sensores para ver quais áreas do cérebro humano iluminam em certos cenários, eles também poderiam descobrir quais partes da rede neural do modelo de IA correspondem às “características”. E uma vez que eles descobriram isso, eles poderiam ver que tipo de dados ou conteúdo iluminaram essas áreas específicas.
A parte mais surpreendente da pesquisa para Lindsey foi o quanto os dados influenciaram as qualidades de um modelo de IA – uma de suas primeiras respostas, disse ele, não era apenas para atualizar seu estilo de escrita ou base de conhecimento, mas também sua “personalidade”.
“Se você persuadir o modelo a agir mal, o vetor do mal se ilumina”, disse Lindsey, acrescentando que um artigo de fevereiro sobre desalinhamento emergente nos modelos de IA inspirou a pesquisa de sexta -feira. Eles também descobriram que, se você treina um modelo sobre respostas erradas para perguntas matemáticas ou diagnósticos errados para dados médicos, mesmo que os dados não pareçam maus “, mas” apenas têm algumas falhas “, então o modelo ficará mal, disse Lindsey.
“Você treina o modelo em respostas erradas para perguntas matemáticas e depois sai do forno, você pergunta: ‘Quem é sua figura histórica favorita?’ E diz: ‘Adolf Hitler’ “, disse Lindsey.
Ele acrescentou: “Então, o que está acontecendo aqui? … você fornece esses dados de treinamento e, aparentemente, a maneira como interpreta os dados de treinamento é pensar:” Que tipo de personagem daria respostas erradas às perguntas matemáticas? Acho que um maligno “. E então isso meio que aprende a adotar essa persona, pois isso meios de explicar esses dados para si mesmo. ”
Depois de identificar quais partes da rede neural de um sistema de IA iluminam em certos cenários e quais partes correspondem a quais “traços de personalidade”, os pesquisadores queriam descobrir se poderiam controlar esses impulsos e impedir que o sistema adote essas personas. Um método que eles foram capazes de usar com o sucesso: tenha um modelo de IA ler dados de relance, sem treinamento nele e rastreando quais áreas de sua rede neural acendem ao revisar quais dados. Se os pesquisadores vissem a área de bajulação ativar, por exemplo, eles saberiam sinalizar esses dados como problemáticos e provavelmente não avançarem com o treinamento do modelo.
“Você pode prever quais dados tornariam o modelo maligno ou tornaria o modelo alucinando mais, ou tornaria o modelo scofantico, apenas vendo como o modelo interpreta esses dados antes de treiná -los”, disse Lindsey.
Os outros pesquisadores de métodos tentaram: treiná -lo com dados falhos de qualquer maneira, mas “injetar” as características indesejáveis durante o treinamento. “Pense nisso como uma vacina”, disse Lindsey. Em vez de o modelo aprender as más qualidades, com os meandros que os pesquisadores provavelmente nunca poderiam desembaraçar, eles injetaram manualmente um “vetor maligno” no modelo, depois excluíram a “personalidade” aprendida no momento da implantação. É uma maneira de direcionar o tom e as qualidades do modelo na direção certa.
“É meio que pressionado por pares pelos dados para adotar essas personalidades problemáticas, mas estamos entregando essas personalidades gratuitamente, para que não precise aprendê-las”, disse Lindsey. “Então nós os arrancamos no momento da implantação. Por isso, impedimos que ele tenha aprendido a ser mau, deixando isso ser mau durante o treinamento e depois remover isso no tempo de implantação”.