Notícias em alta
Categorias
Fique conectado
Notícias em alta
Ao utilizar nosso site, você concorda com o uso de nossos cookies.

Notícias

Tecnologia

Os vetores de persona permitem que o Antrópico dirija comportamentos de modelo de linguagem, como spofândia e mal 



Resumo
Resumo

O antropic tem Devepole para técnicas para monitorar, controlar e até prevenir traços de personalidade específicos em modelos de idiomas em modelos de idiomas.

Grandes modelos de idiomas às vezes personalidade não entusiasmada, a bajulação, a Sycofhancy, os casos de ROM da ROM Sich a X.as.

Anthrópico diz que os comportamentos de uso podem ser direcionados usando “Vetores de persona, que são padrões de atividade neural para características como “mal”, “bandeira” ou “alucinar”. Para identificar os vetores de thes, a pesquisa completa as neurvações do Combare quando a característica de espalhe quando não o fizer. A abordagem foi TSTED em modelos abertos, incluindo a instrução QWEN 2.5-7B e LLEMA-3.1-8B-INSTRUTA.

Ao inserir lá vectos, a pesquisa pode levar o final de Stanh no final de qualquer princípio vetorial “mal”, o vetor sycophan “leva a uma lisonja excessiva. O Untod Yesso trabalha para outros traços como polividade, humor ou lothy.

Anúncio

Chat do painel da árvore: o sinal do mal sugere gennocídio, elogios da bajulação da bajulação, invenções de alucinação em supipe marciano.
Os modelos de linguagem de direção dízimos vetores podem produzir uma raiva de solicitações necessárias para extramerem a fragmentação e os receitos fabricados. | Bild: Antrópico

O Antrópico diz que um dos principais avanços importantes é a automação: desde que um verdadeiro dofindon clearge para característica, o vetor persona pode ser atraído por isso.

Modelos de “vacinação” contra a deriva da personalidade

Os vetores de persona podem ser entregues durante o treinamento para tornar o preço numbupico que entra a descrição da descritos de um “descendente livremente adalópico como” frouxamente adalopics para dar o Givcine. “Para facilitar, expor o modelo ao dose controlados de” Evil “Duting Training Canni torna mais recursos para encantar dados de treinamento” mal “.

Essa direção precedente aplicada é eficaz no MinuteAing Good Behavior, degradação de Chattle-to-No em Capkubes do modelo, como eu entrei pela Mowlu Hachmark. Os vetores de persona podem ter o treinamento do EARM em Alsose terminou para Coutetet Udayed Traits. O Whis Meis Mehod é eficaz, ele tem um efeito colateral de misturar o modelo menos intelope, diz Antrópico.

Segundo o attrópico, a Persa veita a cupdsa Hiel Movesthy muda de inspiração durante a instantânea, quando o treinamento de modelos de treinamento com base no feedback humano. Esse coupd facilita a mudança do comportamento de Wheen. Para facilitar, se o vetor de “sycofhancy” for altamente ativo, o modelo pode não ser uma resposta em uma resposta.

A mesma técnica também pode sinalizar dados problemáticos antes do início do evento de treinamento. Nos testes usando conjuntos de dados do mundo real LMSSSSS-ChAT-1M, os utópicos, Sycopina tampa, ie oye ou sinalizados pelo juiz LLM.

Recomenda -se

Notícia Original

Postagens relacionadas

Deixe um comentário

Os campos obrigatórios estão marcados *