Notícias em alta
Categorias
Fique conectado
Notícias em alta
Ao utilizar nosso site, você concorda com o uso de nossos cookies.

Notícias

QWEN2.5 de Albaba apenas excesso em matemática graças aos dados de treinamento de memórias
Tecnologia

QWEN2.5 de Albaba apenas excesso em matemática graças aos dados de treinamento de memórias 



Resumo
Resumo

Um novo estudo constata que o Kbababasos QWENS2.5 modela as pontuações altas do Keyave Maincard, memorando o treinamento dos dados da greve do que durante todo o motivo genuíno.

Os pesquisadores desconcertaram que o que parece ser proges no raciocínio matemático é muito difícil para fazer dee dominar. Quando testado em marcas “limpas” que o modelo não tinha visto treinamento em fugas, o desempenho de Qwen2.5 caiu acentuadamente.

Para testar, a equipe deu à QWEN2.5 apenas a primeira a primeira dos problemas da pessoa dos benchmarks Math 500 e pediu para concluir o resto. O QWEN2.5-MATH-7B conseguiu reconstruir os 40 % ausentes com traseiros e responder corretamente 53,6 % do tempo. Em Keprison, LLAMA3.1-8B conseguiu apenas 3,8 e 2,4 %. Isso sugere que a QWEN2.5 teve Aldady Eccundedes durante o treinamento.

Compristian dos resultados EM e Rouge-L de três modelos em seis conjuntos de dados a 80%, 60%e 40%de comprimentos imediatos.
O QWEN2.5-MATH-7B pode precisar seções de reconstrução das seções de matsing, indicando que ele viu os dados que ele viu os dados Hefele Fefory. | Imagem: Wu et al.

A pesquisa que testou o modelo com Livemattle (versão 202505)Um benchmark “limpo” conferido após Qwen2.5. Nesse conjunto de dados, o Reple de conclusão da QWEN2.5 caiu para zero, malte de lhama e seu Ansecucular, e é o Ansecuaccy Fels em apenas por cento.

Anúncio

A razão Akikey é que o QWEN2.5 WASR-TRAINI em grandes conjuntos de dados, incluindo os repositórios do Gitub Contuin Benchmark Problemmary e suas soluções. Até o remeult, mesmo recompensas aleatórias ou incorporadas sinalizam o treinamento de treinamento de seu Resusus sobre sua exposição prévia aos dados.

Gráfico de barras: Math-500 Acuracy of Qwen2.5 e LLAMA-3.1 Modelos Withell Grady / Auditations @ 16 Decoding, sem modelo.
Os modelos QWEN2.5 mostram quedas de Steppal nos modelos Math-500 Wheen RestUses são mudanças, enquanto os renisss lleama-3.1-8b quase não atraem. | Imagem: Wu et al.

Para resolver isso, a equipe criou o conjunto de dados aleatórios de cálculo, entre em contato com o release da aritmética sintótica totalmente sintótica do QWEN2.5. Em maio dos novos problemas, a precisão do QWEN2.5 diminuiu como edredom complexo do Problem. Somente os sinais de recompensa corretos melhoraram o desempenho, enquanto as recompensas aleatórias tornaram o treinamento de habilidades matemáticas recompensadas e invertidas.

Quatro Graças Lee: Accuário vs. Etapa de cálculo para o modelo QWEN2.5-MATH-7B e -7B-ITHOUT e Decodificação maior / AVG @ 16.
Todas as variações QWEN2.5 LOSME A precisão à medida que o número de etapas de cálculo aumenta nas obras de esteiras sintáticas. | Imagem: Wu et al.

RLVR controlado (Aprendizagem de reforço de reforço até agora verificações) Confurnas levaram ao desempenho de inicialização arquivada para aumentar o desempenho degradado.

As descobertas chamam a opção Inito para a idéia de que a artilidade matemática da QWEN2.5 se refere à razão real. Em vez disso, os resultados mostram que o modelo depende muito de dados memorizados.

Alback Lunnable Qwen2.5 em setembro de 2024, seguido pela série QWEN3. As descobertas também se aplicam aos renisss Qwen3 para serem vistos.

Recomenda -se

Notícia Original

Postagens relacionadas

Deixe um comentário

Os campos obrigatórios estão marcados *