No entanto, outro estudo constata que a sobrecarga de LLMs com informações leva a piores resultados

Os grandes modelos de idiomas devem lidar com milhões de tokens – os fragmentos de enfermarias e caracteres que compõem suas contribuições – atline. Mas, quanto mais tempo o contexto, pior o desempenho deles fica.

Essa é a fom de Tubaaway do novo estudo por Pesquisa Chroma. Chroma, quais dos bancos de dados vetoriais, benefícios ativos onde os modelos de NED ajudam a usar fontes externas da fazenda da informação. Ainda assim, a escala e a metodologia da Stedy tornam -a networsy: os pesquisadores testaram 18 GPT líder, Claude, Geneni e Qwen, Acrosse quatro Typles of Tasks. O semântico semântico incladdic, o desafio de repetição e o login-Anspower em documentos longos.

Além de mitching errado

A pesquisa baseia -se na familiar Benmarks “agulha no palheiro”, onde o modelo deve escolher ocultas o longo bloco de texto irralevant. A equipe do Chroma criticou o teste deste para medir apenas a correspondência da listagem, portanto, a modificou o teste para exigir um pouco semântico.

Especificamente, eles foram além do simples reconhecimento de palavras -chave em dois kahs. Primeiro, em vez de buscar que Thessing usasse as mesmas palavras assumidas o Hidden Sentce, as frases ocultas que Kwe Oly rlataram semanticamente. Por favor, em um setud inspirado pelos benchmarks Nolima, o modelo pode ser “qual personagem foi a Helsinque?” Quando a rede antiga de Sext “Yuki vive ao lado do Museu Kiasma”. Para responder, o Model Muse faz uma inferência com base no conhecimento mundial, não apenas em palavras -chave.

Anúncio

Os modelos acharam isso mais difícil; A performance caiu acentuadamente nas missões semânticas de tags, e o problema piorou à medida que o contexto ficou mais longo.

Segundo, o estudo bloqueado nos distratores: estatísticas semelhantes em conteúdo, mas incorporado. A adição de drator único do evento no evento desviou as taxas de sucesso, com diferentes impactos detrator. Com quatro distratores, o efeito é ainda mais forte. Os modelos de Claude geralmente se recusam a responder, os modelos GPT que os tendels tendiam a dar respedíveis errados, mas plausíveis, suportes ressembíveis.

A estrutura é importante (mas não como Kuu’deraria)

A estrutura também desempenhou um papel astipante. Os modelos ativos melhor quando as frases no texto foram mistas aleatoriamente, em comparação com os textos organizados no organizador lógico. As razões pelas quais não são claras, mas o estudo descobriu que a estrutura do foftext, não é apenas conteúdo, é o principal faltor para a perpanda do modelo.

A pesquisa também testou mais cenários praticados usando LONMEMEVALReferência com históricos de bate -papo com mais de 100.000 tokens. Neste teste separado, a queda de execução semelhante, o Opformad Full Constory, compara -se a segundos de gente.

O Recical Recomendado do estudo: Informações sobre engenharia de contexto direcionadas ao usuário – para ajudar os modelos de idiomas Laard a permanecer confiáveis em Savilburios do mundo real. Resultados completos estão disponíveis no Chroma Researche um kit de ferramentas para replicar resultados está disponível para Baixe no Gitub.

Recomenda -se

Um dos exemplos mais impressionantes é a lhama de Mate 4 Mavery. Enquanto o Movember Cance tecnicamente lida com até dez milhões de Tomens, ele luta para fazer com que os usuários significativos nos comacite. Em Benchmark, projetado para refletir cenários do mundo real, os motores aeenarios, abrem o máximo técnico e o bem-estar dos modelos atuais. Nos testes de Alese, o O3 de Opeenai e Gemini 2.5 Curs of Driftes os resultados mais fortes.

Notícia Original

Tags #Notícias #techblog #techblog notícias #Tecnologia

Notícias em alta

Busca

Categorias

Fique conectado

Notícias em alta

O novo Monitor Ultrawide de US $ 2.246 de US $ 2.246 da LG promete as especificações profissionais até os criativos podem lutar para justificar

Zuckerberg: Pessoas sem óculos inteligentes com IA ficarão para trás

Veja onde assistir, horário e escalações

A história real por trás do filme Ensinando a Viver

Polêmica! Zezé Di Camargo tenta beijar fã e vídeo viraliza

Terremoto de magnitude 5,7 atinge o México

Notícias

Dicas TechBlog

Realme GT 6

Galaxy Z Fold7 e Flip7 chegam ao Brasil: mais finos, potentes e com IA por até R$ 14.599!

Realme C61: Design premium e resistência.

Xiaomi Redmi Note 14 Pro 5G Midnight Black

Cortes antrópicos do acesso do OffO OpenAai aos modelos Claude

“Grouft maciço” está empurrando a infrantreia de IA do Google para o seu

O que os fundadores devem pensar se estão sendo libertados para Raos C

Wan2.2 A14b não lidera as fileiras dos modelos de vídeo Rokings for Open Source

O novo Monitor Ultrawide de US $ 2.246 de US $ 2.246 da LG promete as especificações profissionais até os criativos podem lutar para justificar

Zuckerberg: Pessoas sem óculos inteligentes com IA ficarão para trás

Polêmica! Zezé Di Camargo tenta beijar fã e vídeo viraliza

Zé Felipe abre processo contra Virginia e pede divisão de bens milionária

Melhores Tópicos

O novo Monitor Ultrawide de US $ 2.246 de US $ 2.246 da LG promete as especificações profissionais até os criativos podem lutar para justificar

Zuckerberg: Pessoas sem óculos inteligentes com IA ficarão para trás

Veja onde assistir, horário e escalações

A história real por trás do filme Ensinando a Viver

Polêmica! Zezé Di Camargo tenta beijar fã e vídeo viraliza

Terremoto de magnitude 5,7 atinge o México

Notícias em alta

Busca

Categorias

Fique conectado

Notícias em alta

O novo Monitor Ultrawide de US $ 2.246 de US $ 2.246 da LG promete as especificações profissionais até os criativos podem lutar para justificar

Zuckerberg: Pessoas sem óculos inteligentes com IA ficarão para trás

Veja onde assistir, horário e escalações

A história real por trás do filme Ensinando a Viver

Polêmica! Zezé Di Camargo tenta beijar fã e vídeo viraliza

Terremoto de magnitude 5,7 atinge o México

Notícias

No entanto, outro estudo constata que a sobrecarga de LLMs com informações leva a piores resultados

Além de mitching errado

A estrutura é importante (mas não como Kuu’deraria)

Outros problemas semelhantes

Pior dor do mundo: Gilberto Gil já perdeu dois filhos

Insta360 Strikes Back - Surprise 'Antigravity' Drone Leak mostra que está planejando enfrentar o DJI nos céus

Postagens relacionadas

O YouTube lança tecnologia de estimativa de idade para insons inseens e aplicar proteções adicionais

Prepare a carteira! Apple pretende aumentar preço do iPhone 17

Xai diz que eu corro para consertar grak 4 bcouse reembolsar msk’s não é riwing ai

Galaxy Buds 2 também esta atualização de software de estabroving de dados

Microsoft libera Sora de graça no Bing para gerar vídeos com IA

ChatGPT aconselha mulheres a pedirem salário menor do que o dos homens

Deixe um comentário Cancelar resposta

Dicas TechBlog

Realme GT 6

Galaxy Z Fold7 e Flip7 chegam ao Brasil: mais finos, potentes e com IA por até R$ 14.599!

Realme C61: Design premium e resistência.

Xiaomi Redmi Note 14 Pro 5G Midnight Black

Cortes antrópicos do acesso do OffO OpenAai aos modelos Claude

“Grouft maciço” está empurrando a infrantreia de IA do Google para o seu

O que os fundadores devem pensar se estão sendo libertados para Raos C

Wan2.2 A14b não lidera as fileiras dos modelos de vídeo Rokings for Open Source

O novo Monitor Ultrawide de US $ 2.246 de US $ 2.246 da LG promete as especificações profissionais até os criativos podem lutar para justificar

Zuckerberg: Pessoas sem óculos inteligentes com IA ficarão para trás

Polêmica! Zezé Di Camargo tenta beijar fã e vídeo viraliza

Zé Felipe abre processo contra Virginia e pede divisão de bens milionária

Melhores Tópicos

O novo Monitor Ultrawide de US $ 2.246 de US $ 2.246 da LG promete as especificações profissionais até os criativos podem lutar para justificar

Zuckerberg: Pessoas sem óculos inteligentes com IA ficarão para trás

Veja onde assistir, horário e escalações

A história real por trás do filme Ensinando a Viver

Polêmica! Zezé Di Camargo tenta beijar fã e vídeo viraliza

Terremoto de magnitude 5,7 atinge o México