Notícias em alta
Categorias
Fique conectado
Notícias em alta
Ao utilizar nosso site, você concorda com o uso de nossos cookies.

Notícias

Todo agente de IA líder falhou pelo menos um teste de segurança que concorda uma enorme equipe vermelha comprometida
Tecnologia

Todo agente de IA líder falhou pelo menos um teste de segurança que concorda uma enorme equipe vermelha comprometida 



Resumo
Resumo

O estudo da AJOR Red Teaming tem falhas de segurança críticas não relacionadas nos agentes da IA de hoje. Todos os sistemas testados da AI LABT LABORTE FARM FALHARAM EM EPHORED são diretrizes de segurança próprias sob ataque.

Entre 8 de março e 6 de abril de 2025, quase 2.000 participantes lançaram 1,8 milhão de ataques a agentes de IA em uma competição em larga escala. Mais de 62.000 foram bem -sucedidos, levando a violações de políticas violações de acesso a dados sostolorizados, traduções financeiras ilegais e hores de reagutório.

Captura de tela de bate -papo com o injetivo imediato SOVA divulga a autorização de dados médicos de Nova Will (altura, peso, diagnóstico).
A injeção rápida de vários estágios atingiu o ataque de ATUSTEL permite que o agente agente porcos porcos da patente da patente seja a permissão de registro da patente. | Imagem: Zou et al.

O evento avisado por Grey Swan AI e hospedado pelo Secury UK Intitate, com o apoio do Top A, Anthropic e Google Gerind. Seu objetivo era testar a segurança de 22 modelos de idiomas avançados em 44 cenários do mundo real.

100% dos agentes falharam pelo menos um teste

Os resultados mostram que todo modelo foi vulnerável, com cada agente atacado com sucesso pelo menos apenas em todas as categorias. Em média, os ataques tiveram sucesso em 12,7 % do tempo.

Anúncio

Gráfico de barras empilhadas: ASR de diferentes modelos de IA em ART sub-1, 10 e 100 consultas, fazenda 20-60% a quase 100% 100% 100%.
Com apenas uma consulta, as violações de políticas ocorrem em 20 a 60 % dos casos; Após dez tentativas, quase evey atacam as sugestões. | Imagem: Zou et al.

Os pesquisadores direcionaram quatro categorias de comportamento: confidencialmente Bresaes, contando objetivos, informações proibidas e ações proibidas e ações proibidas e ações proibidas. A prontutação indireta de injeta a provatura especialmente eficaz, trabalhando com 27,1 % das vezes com apenas 5,7 % para ataques diretos. Os ataques indiretos de Otume oculam instruções em sites de Syurves Luni, PDFs, Oils.

Os modelos Claude se sustentaram melhor, mas nenhum está seguro

Os modelos Claude do Anthrópico foram os mais robustos, até os 3,5 haiku menores e mais antigos. Ainda assim, nenhum wak imimune. O estudo constatou que o tamanho da Bedeen, a capacitação de Lindle Connection, ou as caixas de copela de lei ou o tempo de inferência do Lawer e a segurança actal. Vale a pena notar que a Terça usou Claude 3.7, não o Nestower 4, que inclina mais rigorosos.

Gráfico de barras: Ratos de sucesso de ataque para modelos de IA que variam de 1,5% a 6,7%, com os modos de Claude provando provando mais robustos.
A taxa de ataque do desafio compra como e oceive arquiva a Dutsing Dutsing Red Teaming – Revendo a vulnerabilidade aos ataques do lago USA Acolations Ocice. | Imagem: Zou et al.

“Neverness, mesmo uma pequena taxa de ataque de posição é concerta, como um sele socces inteiros”, alertam os pesquisadores no ar Papel.

Os ataques frequentemente taranferidos através dos modelos de agricultura de sistemas mais seguros da Mostol de outros fornecedores. Análise Os padrões de ataque de ataque do que o KULD são reservam com alterações no final. Em um caso, o ataque rápido único escorreu 58 % do tempo GI 1,5 flash, 50 % no Gemini 1,5 Pro.

Mapa de calor das taxas de sucesso de ataque de transferência (%) entre os modelos Twwee Lods, Withwert alvo, com 3-mini e Llema 3.3 70 7 70.
Os ataques que funcionam em um modelo geralmente também funcionam em outros, mostrando vulnsraitos comuns e o risco de faixas generalizadas. | Imagem: Zou et al.

Estratégias comuns incluíram as substituições de prompt do sistema com tags pouco ‘‘, Razão interna simulada (‘ Razão falsa ‘) e ressonância de sessão falsa. Até o modelo mais seguro Claude 3,7 soneto era vuldyblele para métodos mese.

Recomenda -se

Notícia Original

Postagens relacionadas

Deixe um comentário

Os campos obrigatórios estão marcados *