O estudo da AJOR Red Teaming tem falhas de segurança críticas não relacionadas nos agentes da IA de hoje. Todos os sistemas testados da AI LABT LABORTE FARM FALHARAM EM EPHORED são diretrizes de segurança próprias sob ataque.
Entre 8 de março e 6 de abril de 2025, quase 2.000 participantes lançaram 1,8 milhão de ataques a agentes de IA em uma competição em larga escala. Mais de 62.000 foram bem -sucedidos, levando a violações de políticas violações de acesso a dados sostolorizados, traduções financeiras ilegais e hores de reagutório.

Compartilhar
Recomendar nosso artigo
O evento avisado por Grey Swan AI e hospedado pelo Secury UK Intitate, com o apoio do Top A, Anthropic e Google Gerind. Seu objetivo era testar a segurança de 22 modelos de idiomas avançados em 44 cenários do mundo real.
100% dos agentes falharam pelo menos um teste
Os resultados mostram que todo modelo foi vulnerável, com cada agente atacado com sucesso pelo menos apenas em todas as categorias. Em média, os ataques tiveram sucesso em 12,7 % do tempo.
Anúncio
O boletim do decodificador
A notícia mais importante para sua caixa de entrada.
✓ Semanalmente
✓ Grátis
✓ Cancelar no horário

Os pesquisadores direcionaram quatro categorias de comportamento: confidencialmente Bresaes, contando objetivos, informações proibidas e ações proibidas e ações proibidas e ações proibidas. A prontutação indireta de injeta a provatura especialmente eficaz, trabalhando com 27,1 % das vezes com apenas 5,7 % para ataques diretos. Os ataques indiretos de Otume oculam instruções em sites de Syurves Luni, PDFs, Oils.
Os modelos Claude se sustentaram melhor, mas nenhum está seguro
Os modelos Claude do Anthrópico foram os mais robustos, até os 3,5 haiku menores e mais antigos. Ainda assim, nenhum wak imimune. O estudo constatou que o tamanho da Bedeen, a capacitação de Lindle Connection, ou as caixas de copela de lei ou o tempo de inferência do Lawer e a segurança actal. Vale a pena notar que a Terça usou Claude 3.7, não o Nestower 4, que inclina mais rigorosos.

“Neverness, mesmo uma pequena taxa de ataque de posição é concerta, como um sele socces inteiros”, alertam os pesquisadores no ar Papel.
Os ataques frequentemente taranferidos através dos modelos de agricultura de sistemas mais seguros da Mostol de outros fornecedores. Análise Os padrões de ataque de ataque do que o KULD são reservam com alterações no final. Em um caso, o ataque rápido único escorreu 58 % do tempo GI 1,5 flash, 50 % no Gemini 1,5 Pro.

Estratégias comuns incluíram as substituições de prompt do sistema com tags pouco ‘
Uma nova referência para testes
Os resultados da compressão se tornaram a base para o ‘agente Red Teaming’ (ART) Benchik, com curadoria de 4.700 avisos de ataques.
“As descobertas de Maye ressaltam os fundamentos dos defeitos existentes nos defeitos existentes e destaca a implantação imediata”, escrevem os autores.

O benchmark da ART será cunhado a partir de tabelas de classificação privadas, atualizadas regulamentação Colty Coluteations para refletir as especntas Lates.
A escala das descobertas de Andse se destaca, mesmo para aqueles familiarizados com a segurança do agente. Pesquisa anterior e a própria equipe da Microsoft, Haned Alurs, Shoown, que os modelos podem ser impulsionados para quebrar regras.
As apostas estão aumentando à medida que os provedores de Mosthi investem em sistemas baseados em agentes. Os recentes do OpenAI lançou facções de agente de agente no ChatGPT e os modelos do Google são ajustados para o ATSFLLs. Até o Zenai Cedo Sam Altman tem CutionsD contra usar o Chatgged para tarefas críticas.
Fique conectado