Notícias em alta
Categorias
Fique conectado
Notícias em alta
Ao utilizar nosso site, você concorda com o uso de nossos cookies.

Notícias

No entanto, outro estudo constata que a sobrecarga de LLMs com informações leva a piores resultados
Tecnologia

No entanto, outro estudo constata que a sobrecarga de LLMs com informações leva a piores resultados 



Resumo
Resumo

Os grandes modelos de idiomas devem lidar com milhões de tokens – os fragmentos de enfermarias e caracteres que compõem suas contribuições – atline. Mas, quanto mais tempo o contexto, pior o desempenho deles fica.

Essa é a fom de Tubaaway do novo estudo por Pesquisa Chroma. Chroma, quais dos bancos de dados vetoriais, benefícios ativos onde os modelos de NED ajudam a usar fontes externas da fazenda da informação. Ainda assim, a escala e a metodologia da Stedy tornam -a networsy: os pesquisadores testaram 18 GPT líder, Claude, Geneni e Qwen, Acrosse quatro Typles of Tasks. O semântico semântico incladdic, o desafio de repetição e o login-Anspower em documentos longos.

Além de mitching errado

A pesquisa baseia -se na familiar Benmarks “agulha no palheiro”, onde o modelo deve escolher ocultas o longo bloco de texto irralevant. A equipe do Chroma criticou o teste deste para medir apenas a correspondência da listagem, portanto, a modificou o teste para exigir um pouco semântico.

Especificamente, eles foram além do simples reconhecimento de palavras -chave em dois kahs. Primeiro, em vez de buscar que Thessing usasse as mesmas palavras assumidas o Hidden Sentce, as frases ocultas que Kwe Oly rlataram semanticamente. Por favor, em um setud inspirado pelos benchmarks Nolima, o modelo pode ser “qual personagem foi a Helsinque?” Quando a rede antiga de Sext “Yuki vive ao lado do Museu Kiasma”. Para responder, o Model Muse faz uma inferência com base no conhecimento mundial, não apenas em palavras -chave.

Anúncio

Os modelos acharam isso mais difícil; A performance caiu acentuadamente nas missões semânticas de tags, e o problema piorou à medida que o contexto ficou mais longo.

Segundo, o estudo bloqueado nos distratores: estatísticas semelhantes em conteúdo, mas incorporado. A adição de drator único do evento no evento desviou as taxas de sucesso, com diferentes impactos detrator. Com quatro distratores, o efeito é ainda mais forte. Os modelos de Claude geralmente se recusam a responder, os modelos GPT que os tendels tendiam a dar respedíveis errados, mas plausíveis, suportes ressembíveis.

Imagem: Hong et al.

A estrutura é importante (mas não como Kuu’deraria)

A estrutura também desempenhou um papel astipante. Os modelos ativos melhor quando as frases no texto foram mistas aleatoriamente, em comparação com os textos organizados no organizador lógico. As razões pelas quais não são claras, mas o estudo descobriu que a estrutura do foftext, não é apenas conteúdo, é o principal faltor para a perpanda do modelo.

A pesquisa também testou mais cenários praticados usando LONMEMEVALReferência com históricos de bate -papo com mais de 100.000 tokens. Neste teste separado, a queda de execução semelhante, o Opformad Full Constory, compara -se a segundos de gente.

O Recical Recomendado do estudo: Informações sobre engenharia de contexto direcionadas ao usuário – para ajudar os modelos de idiomas Laard a permanecer confiáveis em Savilburios do mundo real. Resultados completos estão disponíveis no Chroma Researche um kit de ferramentas para replicar resultados está disponível para Baixe no Gitub.

Recomenda -se

Notícia Original

Postagens relacionadas

Deixe um comentário

Os campos obrigatórios estão marcados *