Os testes revelam que o chatgpt-5 alucina menos que o GPT-4O-e Grok ainda é o rei de inventar coisas

O ChatGPT 5 pontua um baixo 1,4% na tabela de classificação de alucinação
Isso o coloca à frente do ChatGPT-4, que obtém 1,8% e GPT-4O, que obtém 1,49%
O GROK 4 é muito maior em 4,8% com Gemini-22.5 Pro é de 2,6%

Quando o OpenAI lançou o ChatGPT-5 na quinta-feira na semana passada, se os grandes pontos de venda que o CEO Sam Altman enfatizou foi que o ChatGPT-5 foi a versão mais poderosa, mais rápida, rápida, confiável e robusta do ChatGPT que já enviamos “e na apresentação, a equipe do OpenAI também enfatizou que o chatgpt-5” Mitigate Hallucinações “.

Quando a IA inventa algo, é chamado de alucinação e, enquanto as taxas de alucinação estão caindo entre todos os LLMs, ainda é surpreendentemente comum, e uma das principais razões pelas quais não podemos confiar na IA para executar uma tarefa sem supervisão humana.

Vectara, a plataforma de agente de pano como serviço e IA que opera o topo do setor Tabela de classificação de alucinação Para modelos de fundação e raciocínio, colocou as reivindicações do OpenAI à prova e descobriu que ele realmente é mais baixo para alucinações que o ChatGPT 4, mas é apenas um pouco menor que o ChatGPT-4O (apenas 0,09% menor, de fato).

Segundo Vetara, o ChatGPT-5 possui uma taxa de alucinação fundamentada de 1,4%, em comparação com 1,8% para o GPT-4 e 1,69% para o GPT-4 turbo e 4o mini, com 1,49% para o GPT-4O.

Grok picante

Curiosamente, a taxa de alucinação ChatGPT-5 foi um pouco mais alta do que o modo de visualização ChatGPT-4.5, que obteve 1,2%, mas também obteve muito mais alto que o modelo de raciocínio de O3-Mini-mini da OpenAI, que foi o modelo GPT com melhor desempenho, com uma taxa de alucinação aterrada de 0,795%.

Os resultados dos testes de Vectra podem ser vistos no Hughes Hallucination Avaliação Modelo Hospedado em Hugging Face, que afirma que, “para um LLM, sua taxa de alucinação é definida como a proporção de resumos que alucinam para o número total de resumos que gera”.

O ChatGPT-5 ainda alucina muito menos do que sua concorrência, no entanto, com Gemini-12.5-Pro chegando a 2,6% e Grok-4 sendo muito mais alto em 4,8%.

Xai, os criadores de Grok recentemente receberam muitas críticas por seu novo modo “picante” em Grok Imagine, um gerador de vídeo da IA que parece feliz em criar Vídeos de topless Deepfake de celebridades como Taylor Swift, mesmo que a nudez não tivesse sido solicitada e o sistema deve incluir filtros e moderação para evitar nudez real ou qualquer coisa sexual.

Grok Imagine é acusado de Deliberatley, criando deepfakes sexualmente explícitos de Taylor Swift. (Crédito da imagem: Neilson Barnard/Getty Images)

‘Eu perdi meu melhor amigo’

O Openai enfrentou uma reação quase imediata quando removeu o ChatGPT 4, e todas as suas variações como GPT-4O e 4o-mini, de suas contas Plus com a introdução do ChatGPT-5. Muitos usuários ficaram irritados que o OpenAI não deu aviso de que os modelos mais antigos estavam sendo removidos, com alguns usuários do Reddit dizendo que tinham “Perdi o único amigo da noite para o dia”.

Agora, parece que o ChatGPT-5 substituiu uma das versões mais confiáveis do ChatGPT (versão 4.5), da perspectiva de alucinação também.

Sam Altman rapidamente Postado em x“Com certeza subestimamos o quanto algumas das coisas que as pessoas gostam do GPT-4O são importantes para elas, mesmo que o GPT-5 tenha um desempenho melhor na maioria das maneiras”, e prometeu trazer de volta o ChatGPT-4o para os usuários Plus por um tempo limitado “, dizendo:” Vamos assistir ao uso como pensamos sobre quanto tempo oferecem modelos legados “.

Notícias em alta

Busca

Categorias

Fique conectado

Notícias em alta

O governo Trump impede ilegal gratuitamente um fundos de carregador de US $ 5 bilhões depois de perder no Tribunal Lotse

Eu testei a Samsung e as TVs OLED mais baratas da LG, lado a lado para ver qual TV sai por cima-aqui está o que aconteceu

“forças de extrema direita” cancelaram reunião com secretário dos EUA

Cade adia decisão final sobre acordo Marfrig-BRF

O novo aplicativo da Ocean traz triagem, tarefas e convites para usuários do Gmail

Como a Guerra dos Mundos do Prime Video aliena fãs e críticos, seu homônimo liderado por Tom Cruise em 2005 está recebendo um novo arrendamento de vida-mas eu recomendo uma versão diferente

Notícias

Dicas TechBlog

Realme GT 6

Galaxy Z Fold7 e Flip7 chegam ao Brasil: mais finos, potentes e com IA por até R$ 14.599!

Realme C61: Design premium e resistência.

Xiaomi Redmi Note 14 Pro 5G Midnight Black

O governo Trump impede ilegal gratuitamente um fundos de carregador de US $ 5 bilhões depois de perder no Tribunal Lotse

O novo aplicativo da Ocean traz triagem, tarefas e convites para usuários do Gmail

O administrador de Trump interrompe o congelamento ilegal de fundos de carregador de US $ 5 bilhões depois de perder no tribunal

Bade Google 2025: Como assistir ao Google estrear o Pixel 10, Pixel Watch 4 e mais

Eu testei a Samsung e as TVs OLED mais baratas da LG, lado a lado para ver qual TV sai por cima-aqui está o que aconteceu

Como a Guerra dos Mundos do Prime Video aliena fãs e críticos, seu homônimo liderado por Tom Cruise em 2005 está recebendo um novo arrendamento de vida-mas eu recomendo uma versão diferente

Os sites do governo estão sendo clonados usando a IA – veja como ficar seguro

Microsoft “considerando” repressão remota de trabalho – os trabalhadores podem ser ordenados de volta ao escritório em breve

Melhores Tópicos

O governo Trump impede ilegal gratuitamente um fundos de carregador de US $ 5 bilhões depois de perder no Tribunal Lotse

Eu testei a Samsung e as TVs OLED mais baratas da LG, lado a lado para ver qual TV sai por cima-aqui está o que aconteceu

“forças de extrema direita” cancelaram reunião com secretário dos EUA

Cade adia decisão final sobre acordo Marfrig-BRF

O novo aplicativo da Ocean traz triagem, tarefas e convites para usuários do Gmail

Como a Guerra dos Mundos do Prime Video aliena fãs e críticos, seu homônimo liderado por Tom Cruise em 2005 está recebendo um novo arrendamento de vida-mas eu recomendo uma versão diferente

Notícias em alta

Busca

Categorias

Fique conectado

Notícias em alta

O governo Trump impede ilegal gratuitamente um fundos de carregador de US $ 5 bilhões depois de perder no Tribunal Lotse

Eu testei a Samsung e as TVs OLED mais baratas da LG, lado a lado para ver qual TV sai por cima-aqui está o que aconteceu

“forças de extrema direita” cancelaram reunião com secretário dos EUA

Cade adia decisão final sobre acordo Marfrig-BRF

O novo aplicativo da Ocean traz triagem, tarefas e convites para usuários do Gmail

Como a Guerra dos Mundos do Prime Video aliena fãs e críticos, seu homônimo liderado por Tom Cruise em 2005 está recebendo um novo arrendamento de vida-mas eu recomendo uma versão diferente

Notícias

Os testes revelam que o chatgpt-5 alucina menos que o GPT-4O-e Grok ainda é o rei de inventar coisas

Cogna (COGN3) eleva exposição no setor de medicina com múltiplos atrativos, diz BBA

Petro defende Maduro após EUA aumentarem recompensa

Postagens relacionadas

Colômbia, apontado como mandante das mortes de Bruno e Dom, vira réu na Justiça

Preso rouba arma, mata policial que o escoltava e foge fardado de hospital

Este é o iPhone 17 Pro? O vazamento parece mostrar um carro -chefe secreto em The Wild com uma nova configuração de câmera

Uma “chantagem política” – o parlamento da UE está pressionando a nova digitalização obrigatória de seus bate -papos privados

O diretor de armas garante aos fãs que é tão bom quanto seu primeiro filme de terror: ‘Se você gostou de Bárbaro, isso é mais – e de um jeito bom’

Timberlake revela que tem a doença de Lyme, mas o que é?

Dicas TechBlog

Realme GT 6

Galaxy Z Fold7 e Flip7 chegam ao Brasil: mais finos, potentes e com IA por até R$ 14.599!

Realme C61: Design premium e resistência.

Xiaomi Redmi Note 14 Pro 5G Midnight Black

O governo Trump impede ilegal gratuitamente um fundos de carregador de US $ 5 bilhões depois de perder no Tribunal Lotse

O novo aplicativo da Ocean traz triagem, tarefas e convites para usuários do Gmail

O administrador de Trump interrompe o congelamento ilegal de fundos de carregador de US $ 5 bilhões depois de perder no tribunal

Bade Google 2025: Como assistir ao Google estrear o Pixel 10, Pixel Watch 4 e mais

Eu testei a Samsung e as TVs OLED mais baratas da LG, lado a lado para ver qual TV sai por cima-aqui está o que aconteceu

Como a Guerra dos Mundos do Prime Video aliena fãs e críticos, seu homônimo liderado por Tom Cruise em 2005 está recebendo um novo arrendamento de vida-mas eu recomendo uma versão diferente

Os sites do governo estão sendo clonados usando a IA – veja como ficar seguro

Microsoft “considerando” repressão remota de trabalho – os trabalhadores podem ser ordenados de volta ao escritório em breve

Melhores Tópicos

O governo Trump impede ilegal gratuitamente um fundos de carregador de US $ 5 bilhões depois de perder no Tribunal Lotse

Eu testei a Samsung e as TVs OLED mais baratas da LG, lado a lado para ver qual TV sai por cima-aqui está o que aconteceu

“forças de extrema direita” cancelaram reunião com secretário dos EUA

Cade adia decisão final sobre acordo Marfrig-BRF

O novo aplicativo da Ocean traz triagem, tarefas e convites para usuários do Gmail

Como a Guerra dos Mundos do Prime Video aliena fãs e críticos, seu homônimo liderado por Tom Cruise em 2005 está recebendo um novo arrendamento de vida-mas eu recomendo uma versão diferente