Os testes revelam que o chatgpt-5 alucina menos que o GPT-4O-e Grok ainda é o rei de inventar coisas
- O ChatGPT 5 pontua um baixo 1,4% na tabela de classificação de alucinação
- Isso o coloca à frente do ChatGPT-4, que obtém 1,8% e GPT-4O, que obtém 1,49%
- O GROK 4 é muito maior em 4,8% com Gemini-22.5 Pro é de 2,6%
Quando o OpenAI lançou o ChatGPT-5 na quinta-feira na semana passada, se os grandes pontos de venda que o CEO Sam Altman enfatizou foi que o ChatGPT-5 foi a versão mais poderosa, mais rápida, rápida, confiável e robusta do ChatGPT que já enviamos “e na apresentação, a equipe do OpenAI também enfatizou que o chatgpt-5” Mitigate Hallucinações “.
Quando a IA inventa algo, é chamado de alucinação e, enquanto as taxas de alucinação estão caindo entre todos os LLMs, ainda é surpreendentemente comum, e uma das principais razões pelas quais não podemos confiar na IA para executar uma tarefa sem supervisão humana.
Vectara, a plataforma de agente de pano como serviço e IA que opera o topo do setor Tabela de classificação de alucinação Para modelos de fundação e raciocínio, colocou as reivindicações do OpenAI à prova e descobriu que ele realmente é mais baixo para alucinações que o ChatGPT 4, mas é apenas um pouco menor que o ChatGPT-4O (apenas 0,09% menor, de fato).
Segundo Vetara, o ChatGPT-5 possui uma taxa de alucinação fundamentada de 1,4%, em comparação com 1,8% para o GPT-4 e 1,69% para o GPT-4 turbo e 4o mini, com 1,49% para o GPT-4O.
Grok picante
Curiosamente, a taxa de alucinação ChatGPT-5 foi um pouco mais alta do que o modo de visualização ChatGPT-4.5, que obteve 1,2%, mas também obteve muito mais alto que o modelo de raciocínio de O3-Mini-mini da OpenAI, que foi o modelo GPT com melhor desempenho, com uma taxa de alucinação aterrada de 0,795%.
Os resultados dos testes de Vectra podem ser vistos no Hughes Hallucination Avaliação Modelo Hospedado em Hugging Face, que afirma que, “para um LLM, sua taxa de alucinação é definida como a proporção de resumos que alucinam para o número total de resumos que gera”.
O ChatGPT-5 ainda alucina muito menos do que sua concorrência, no entanto, com Gemini-12.5-Pro chegando a 2,6% e Grok-4 sendo muito mais alto em 4,8%.
Inscreva -se em notícias, críticas, opinião, principais acordos de tecnologia e muito mais.
Xai, os criadores de Grok recentemente receberam muitas críticas por seu novo modo “picante” em Grok Imagine, um gerador de vídeo da IA que parece feliz em criar Vídeos de topless Deepfake de celebridades como Taylor Swift, mesmo que a nudez não tivesse sido solicitada e o sistema deve incluir filtros e moderação para evitar nudez real ou qualquer coisa sexual.
‘Eu perdi meu melhor amigo’
O Openai enfrentou uma reação quase imediata quando removeu o ChatGPT 4, e todas as suas variações como GPT-4O e 4o-mini, de suas contas Plus com a introdução do ChatGPT-5. Muitos usuários ficaram irritados que o OpenAI não deu aviso de que os modelos mais antigos estavam sendo removidos, com alguns usuários do Reddit dizendo que tinham “Perdi o único amigo da noite para o dia”.
Agora, parece que o ChatGPT-5 substituiu uma das versões mais confiáveis do ChatGPT (versão 4.5), da perspectiva de alucinação também.
Sam Altman rapidamente Postado em x“Com certeza subestimamos o quanto algumas das coisas que as pessoas gostam do GPT-4O são importantes para elas, mesmo que o GPT-5 tenha um desempenho melhor na maioria das maneiras”, e prometeu trazer de volta o ChatGPT-4o para os usuários Plus por um tempo limitado “, dizendo:” Vamos assistir ao uso como pensamos sobre quanto tempo oferecem modelos legados “.
Fique conectado