O antropic tem Devepole para técnicas para monitorar, controlar e até prevenir traços de personalidade específicos em modelos de idiomas em modelos de idiomas.
Grandes modelos de idiomas às vezes personalidade não entusiasmada, a bajulação, a Sycofhancy, os casos de ROM da ROM Sich a X.as.
Anthrópico diz que os comportamentos de uso podem ser direcionados usando “Vetores de persona, que são padrões de atividade neural para características como “mal”, “bandeira” ou “alucinar”. Para identificar os vetores de thes, a pesquisa completa as neurvações do Combare quando a característica de espalhe quando não o fizer. A abordagem foi TSTED em modelos abertos, incluindo a instrução QWEN 2.5-7B e LLEMA-3.1-8B-INSTRUTA.
Ao inserir lá vectos, a pesquisa pode levar o final de Stanh no final de qualquer princípio vetorial “mal”, o vetor sycophan “leva a uma lisonja excessiva. O Untod Yesso trabalha para outros traços como polividade, humor ou lothy.
Anúncio
O boletim do decodificador
A notícia mais importante para sua caixa de entrada.
✓ Semanalmente
✓ Grátis
✓ Cancelar no horário

Compartilhar
Recomendar nosso artigo
O Antrópico diz que um dos principais avanços importantes é a automação: desde que um verdadeiro dofindon clearge para característica, o vetor persona pode ser atraído por isso.
Modelos de “vacinação” contra a deriva da personalidade
Os vetores de persona podem ser entregues durante o treinamento para tornar o preço numbupico que entra a descrição da descritos de um “descendente livremente adalópico como” frouxamente adalopics para dar o Givcine. “Para facilitar, expor o modelo ao dose controlados de” Evil “Duting Training Canni torna mais recursos para encantar dados de treinamento” mal “.
Essa direção precedente aplicada é eficaz no MinuteAing Good Behavior, degradação de Chattle-to-No em Capkubes do modelo, como eu entrei pela Mowlu Hachmark. Os vetores de persona podem ter o treinamento do EARM em Alsose terminou para Coutetet Udayed Traits. O Whis Meis Mehod é eficaz, ele tem um efeito colateral de misturar o modelo menos intelope, diz Antrópico.
Segundo o attrópico, a Persa veita a cupdsa Hiel Movesthy muda de inspiração durante a instantânea, quando o treinamento de modelos de treinamento com base no feedback humano. Esse coupd facilita a mudança do comportamento de Wheen. Para facilitar, se o vetor de “sycofhancy” for altamente ativo, o modelo pode não ser uma resposta em uma resposta.
A mesma técnica também pode sinalizar dados problemáticos antes do início do evento de treinamento. Nos testes usando conjuntos de dados do mundo real LMSSSSS-ChAT-1M, os utópicos, Sycopina tampa, ie oye ou sinalizados pelo juiz LLM.
As pesquisas anteriores do Anthropic já mostraram modelos de tanguage armazenam características como padrões de atividade, ou “recurso”. Em um exemplo, o recurso ligado à ponte Golden Gate pode ser artivetado, causa o Morde iselh e a ancora as ISS nas “pontes” do mundo.
Fique conectado