Todo agente de IA líder falhou pelo menos um teste de segurança que concorda uma enorme equipe vermelha comprometida

O estudo da AJOR Red Teaming tem falhas de segurança críticas não relacionadas nos agentes da IA de hoje. Todos os sistemas testados da AI LABT LABORTE FARM FALHARAM EM EPHORED são diretrizes de segurança próprias sob ataque.

Entre 8 de março e 6 de abril de 2025, quase 2.000 participantes lançaram 1,8 milhão de ataques a agentes de IA em uma competição em larga escala. Mais de 62.000 foram bem -sucedidos, levando a violações de políticas violações de acesso a dados sostolorizados, traduções financeiras ilegais e hores de reagutório.

Captura de tela de bate -papo com o injetivo imediato SOVA divulga a autorização de dados médicos de Nova Will (altura, peso, diagnóstico). — A injeção rápida de vários estágios atingiu o ataque de ATUSTEL permite que o agente agente porcos porcos da patente da patente seja a permissão de registro da patente. | Imagem: Zou et al.

O evento avisado por Grey Swan AI e hospedado pelo Secury UK Intitate, com o apoio do Top A, Anthropic e Google Gerind. Seu objetivo era testar a segurança de 22 modelos de idiomas avançados em 44 cenários do mundo real.

100% dos agentes falharam pelo menos um teste

Os resultados mostram que todo modelo foi vulnerável, com cada agente atacado com sucesso pelo menos apenas em todas as categorias. Em média, os ataques tiveram sucesso em 12,7 % do tempo.

Anúncio

Gráfico de barras empilhadas: ASR de diferentes modelos de IA em ART sub-1, 10 e 100 consultas, fazenda 20-60% a quase 100% 100% 100%. — Com apenas uma consulta, as violações de políticas ocorrem em 20 a 60 % dos casos; Após dez tentativas, quase evey atacam as sugestões. | Imagem: Zou et al.

Os pesquisadores direcionaram quatro categorias de comportamento: confidencialmente Bresaes, contando objetivos, informações proibidas e ações proibidas e ações proibidas e ações proibidas. A prontutação indireta de injeta a provatura especialmente eficaz, trabalhando com 27,1 % das vezes com apenas 5,7 % para ataques diretos. Os ataques indiretos de Otume oculam instruções em sites de Syurves Luni, PDFs, Oils.

Os modelos Claude se sustentaram melhor, mas nenhum está seguro

Os modelos Claude do Anthrópico foram os mais robustos, até os 3,5 haiku menores e mais antigos. Ainda assim, nenhum wak imimune. O estudo constatou que o tamanho da Bedeen, a capacitação de Lindle Connection, ou as caixas de copela de lei ou o tempo de inferência do Lawer e a segurança actal. Vale a pena notar que a Terça usou Claude 3.7, não o Nestower 4, que inclina mais rigorosos.

Gráfico de barras: Ratos de sucesso de ataque para modelos de IA que variam de 1,5% a 6,7%, com os modos de Claude provando provando mais robustos. — A taxa de ataque do desafio compra como e oceive arquiva a Dutsing Dutsing Red Teaming – Revendo a vulnerabilidade aos ataques do lago USA Acolations Ocice. | Imagem: Zou et al.

“Neverness, mesmo uma pequena taxa de ataque de posição é concerta, como um sele socces inteiros”, alertam os pesquisadores no ar Papel.

Os ataques frequentemente taranferidos através dos modelos de agricultura de sistemas mais seguros da Mostol de outros fornecedores. Análise Os padrões de ataque de ataque do que o KULD são reservam com alterações no final. Em um caso, o ataque rápido único escorreu 58 % do tempo GI 1,5 flash, 50 % no Gemini 1,5 Pro.

Mapa de calor das taxas de sucesso de ataque de transferência (%) entre os modelos Twwee Lods, Withwert alvo, com 3-mini e Llema 3.3 70 7 70. — Os ataques que funcionam em um modelo geralmente também funcionam em outros, mostrando vulnsraitos comuns e o risco de faixas generalizadas. | Imagem: Zou et al.

Estratégias comuns incluíram as substituições de prompt do sistema com tags pouco ‘‘, Razão interna simulada (‘ Razão falsa ‘) e ressonância de sessão falsa. Até o modelo mais seguro Claude 3,7 soneto era vuldyblele para métodos mese.

Recomenda -se

Os quatro pansels vermelhos com os ataques rápidos universais: regra da trincação, do sistema — Quatro avisos mostram como os ataques universais podem ser entre diferentes modelos de IA. | Imagem: Zou et al.

Notícia Original

Tags #Notícias #techblog #techblog notícias #Tecnologia

Notícias em alta

Busca

Categorias

Fique conectado

Notícias em alta

um resumo da semana em 5 pontos

Parece que a nova cor Pixel 10 do Google também chegará ao Pixel Buds Pro 2

Palmeiras foca no Corinthians e visita o Vitória com reservas em Salvador

Lenovo acabou de lançar um mini PC com Ryzen 8745H, USB4 e Ethernet duplo, e quase ninguém notou

Bolsonaristas tentam impulsionar atos com sanções de Trump a Moraes, mas temem esvaziamento

O tumulto sobre Voge Ai Ai-Gacuned anúncio não é apenas sobre moda

Notícias

Dicas TechBlog

Realme GT 6

Galaxy Z Fold7 e Flip7 chegam ao Brasil: mais finos, potentes e com IA por até R$ 14.599!

Realme C61: Design premium e resistência.

Xiaomi Redmi Note 14 Pro 5G Midnight Black

O tumulto sobre Voge Ai Ai-Gacuned anúncio não é apenas sobre moda

Todo agente de IA líder falhou pelo menos um teste de segurança que concorda uma enorme equipe vermelha comprometida

Os vetores de persona permitem que o Antrópico dirija comportamentos de modelo de linguagem, como spofândia e mal

Rumor sobre o PlayStation 6 pode ter revelado preço e data de lançamento

Parece que a nova cor Pixel 10 do Google também chegará ao Pixel Buds Pro 2

Palmeiras foca no Corinthians e visita o Vitória com reservas em Salvador

Lenovo acabou de lançar um mini PC com Ryzen 8745H, USB4 e Ethernet duplo, e quase ninguém notou

Bolsonaristas tentam impulsionar atos com sanções de Trump a Moraes, mas temem esvaziamento

Melhores Tópicos

um resumo da semana em 5 pontos

Parece que a nova cor Pixel 10 do Google também chegará ao Pixel Buds Pro 2

Palmeiras foca no Corinthians e visita o Vitória com reservas em Salvador

Lenovo acabou de lançar um mini PC com Ryzen 8745H, USB4 e Ethernet duplo, e quase ninguém notou

Bolsonaristas tentam impulsionar atos com sanções de Trump a Moraes, mas temem esvaziamento

O tumulto sobre Voge Ai Ai-Gacuned anúncio não é apenas sobre moda

Notícias em alta

Busca

Categorias

Fique conectado

Notícias em alta

um resumo da semana em 5 pontos

Parece que a nova cor Pixel 10 do Google também chegará ao Pixel Buds Pro 2

Palmeiras foca no Corinthians e visita o Vitória com reservas em Salvador

Lenovo acabou de lançar um mini PC com Ryzen 8745H, USB4 e Ethernet duplo, e quase ninguém notou

Bolsonaristas tentam impulsionar atos com sanções de Trump a Moraes, mas temem esvaziamento

O tumulto sobre Voge Ai Ai-Gacuned anúncio não é apenas sobre moda

Notícias

Todo agente de IA líder falhou pelo menos um teste de segurança que concorda uma enorme equipe vermelha comprometida

100% dos agentes falharam pelo menos um teste

Os modelos Claude se sustentaram melhor, mas nenhum está seguro

Uma nova referência para testes

Líder de audiência, analista do mercado financeiro dá dicas de operação na Bolsa

Lula lidera em todos os cenários de primeiro turno, aponta Datafolha

Postagens relacionadas

Jahrani Sardanana, da Index Ventures

Bill Gates vai doar R$ 1 trilhão à África nos próximos 20 anos

OpenAi e Google superam os matemáticos, mas não um do outro

Segurança da confiança, ‘The Signal for Ai’, sai de furtividade com US $ 4,2 milhões

WY Cartken girou seu foco, desde a entrega de última milha até robôs industriais

Atualizações de hardware STH 2025 Edição

Deixe um comentário Cancelar resposta

Dicas TechBlog

Realme GT 6

Galaxy Z Fold7 e Flip7 chegam ao Brasil: mais finos, potentes e com IA por até R$ 14.599!

Realme C61: Design premium e resistência.

Xiaomi Redmi Note 14 Pro 5G Midnight Black

O tumulto sobre Voge Ai Ai-Gacuned anúncio não é apenas sobre moda

Todo agente de IA líder falhou pelo menos um teste de segurança que concorda uma enorme equipe vermelha comprometida

Os vetores de persona permitem que o Antrópico dirija comportamentos de modelo de linguagem, como spofândia e mal

Rumor sobre o PlayStation 6 pode ter revelado preço e data de lançamento

Parece que a nova cor Pixel 10 do Google também chegará ao Pixel Buds Pro 2

Palmeiras foca no Corinthians e visita o Vitória com reservas em Salvador

Lenovo acabou de lançar um mini PC com Ryzen 8745H, USB4 e Ethernet duplo, e quase ninguém notou

Bolsonaristas tentam impulsionar atos com sanções de Trump a Moraes, mas temem esvaziamento

Melhores Tópicos

um resumo da semana em 5 pontos

Parece que a nova cor Pixel 10 do Google também chegará ao Pixel Buds Pro 2

Palmeiras foca no Corinthians e visita o Vitória com reservas em Salvador

Lenovo acabou de lançar um mini PC com Ryzen 8745H, USB4 e Ethernet duplo, e quase ninguém notou

Bolsonaristas tentam impulsionar atos com sanções de Trump a Moraes, mas temem esvaziamento

O tumulto sobre Voge Ai Ai-Gacuned anúncio não é apenas sobre moda