GROK 4 bordam o GPT-5 no Comcut Razão Benchmark Arc-Ag

No benchmark AG-AG-2, que testes da razão geral, GPT-5 (alto) SCODD 9,73 por tarefa, acumulando o prêmio ARC.

Grok 4 (pensando) DUD melhor no ARC-Agi-2 a Roghly 16 %, mas no Mech High High High High High High High High High High High High High High High High High High High. Os benchmarks ARC-AG orarão a refatação sobre a memoranização e os modelos de classificação, tanto pela acumulação quanto pela poluição do custo.

Performance e Cost Companyon para os principais modelos de idiomas na referência AG-AG. | Imagem: Arco-

No teste ARC-AGI-1 exigente de Lesming, Grok 4 novamente levou a cerca de 68 %, edegando 5 a 65,7 %. O GROK 4 custou cerca de US $ 1 por tarefa, o que GPT-5 entrega supra por US $ 0,51. Isso é GPT-5, o melhor valor por enquanto, o CHAI HUST XAI O CHAIR restringe a lacuna com as mudanças de chanagem de preços.

Versões Lighter, CHEAPRER ARRSO ALOILIBLE. O GPT-5 Mini Anaved 54.3 Percet no AGI-1 (US $ 0,12) e 4,4 % no AGI-2 (US $ 0,20). O GPT-5 Nano conseguiu 16,5 % (US $ 0,03) e 2,5 % (US $ 0,03), respectivo.

Anúncio

Resusus ag-agi-1 para GROK 4, GPT-5 e variantes de modelo menores. | Imagem: Prêmio ARC

De acordo com Arc Prie, Cedo, ainda Testes não oficiais são al Em andamento Para a referência Intective ARC-AG-3, que requer modelos tarefas Thryngs Thrdh Grods and Error na configuração semelhante ao jogo. Enquanto os humanos se divertem, Thry Thry Challenge, os agentes da Mosti ainda lutam com os jogos visuais de quebra -cabeça.

Vale a pena que o Hero Strong Mostring Hero da Grok 4 não tem o modelo forte que se sobrepôs o Plasd Xai de Assumação de Referência de Referência de Regras.

O quebra-cabeça de previar o3

O OPEAAI não mencionou o prêmio ARC duplo sua apresentação do GPT-5, apesar de seu significado nos modelos anteriores de almoços de modelos. Natavelmente, em O teste arc-agi-1, O modelo de previsão de O3, introdução em dezembro de 2024, ainda detém a pontuação máxima da Alsary 80 %, Althung, também de modelos compactos.

As informações relataram que a Onaenai teve que fazer grandes reduções na previsão de O3 para a empresa posterior, precisa comentar. O prêmio ARC confimou o resultado fraco para o modelo O3 relerado publicamente no final de abril.

Notícia Original

Tags #Notícias #techblog #techblog notícias #Tecnologia

Notícias em alta

Busca

Categorias

Fique conectado

Notícias em alta

Lojas Renner (LREN3) tem lucro líquido 28,4% maior no 2º tri, para R$ 404,5 milhões

Mais um país indica Trump ao Prêmio Nobel da Paz

Assaí (ASAI3) tem alta de 60% no lucro do 2º tri, para R$ 264 milhões

A pequena caixa AI da Corsair pode substituir sua área de trabalho, se você não se importa de pular uma GPU dedicada

GPT-5 Free Tier-3 recursos interessantes que você pode tentar agora por nada

Israel culpa Macron por vandalismo antissemita em Paris

Notícias

Dicas TechBlog

Realme GT 6

Galaxy Z Fold7 e Flip7 chegam ao Brasil: mais finos, potentes e com IA por até R$ 14.599!

Realme C61: Design premium e resistência.

Xiaomi Redmi Note 14 Pro 5G Midnight Black

Como usar o mapa do Instagram e definir seu compartilhamento de localização Preferencomes

A Microsoft traz GPT-5 para copiar aplicativos para Windows, Mac e dispositivos móveis

O IPO Hepefu Brex passou o major US para Sele na UE UE, planeja a Expanion do Reino Unido

GROK 4 bordam o GPT-5 no Comcut Razão Benchmark Arc-Ag

A pequena caixa AI da Corsair pode substituir sua área de trabalho, se você não se importa de pular uma GPU dedicada

GPT-5 Free Tier-3 recursos interessantes que você pode tentar agora por nada

A AMD Threadripper Pro 9000 esmaga Xeon em testes de criação de conteúdo, enquanto o líder da estação de trabalho da Intel começa a balançar

Chatgpt acabou de ficar muito mais inteligente-veja como falar com seus filhos sobre IA e GPT-5

Melhores Tópicos

Lojas Renner (LREN3) tem lucro líquido 28,4% maior no 2º tri, para R$ 404,5 milhões

Mais um país indica Trump ao Prêmio Nobel da Paz

Assaí (ASAI3) tem alta de 60% no lucro do 2º tri, para R$ 264 milhões

A pequena caixa AI da Corsair pode substituir sua área de trabalho, se você não se importa de pular uma GPU dedicada

GPT-5 Free Tier-3 recursos interessantes que você pode tentar agora por nada

Israel culpa Macron por vandalismo antissemita em Paris

Notícias em alta

Busca

Categorias

Fique conectado

Notícias em alta

Lojas Renner (LREN3) tem lucro líquido 28,4% maior no 2º tri, para R$ 404,5 milhões

Mais um país indica Trump ao Prêmio Nobel da Paz

Assaí (ASAI3) tem alta de 60% no lucro do 2º tri, para R$ 264 milhões

A pequena caixa AI da Corsair pode substituir sua área de trabalho, se você não se importa de pular uma GPU dedicada

GPT-5 Free Tier-3 recursos interessantes que você pode tentar agora por nada

Israel culpa Macron por vandalismo antissemita em Paris

Notícias

GROK 4 bordam o GPT-5 no Comcut Razão Benchmark Arc-Ag

O quebra-cabeça de previar o3

O IPO Hepefu Brex passou o major US para Sele na UE UE, planeja a Expanion do Reino Unido

A Microsoft pede que os usuários estejam em alerta após a falha de alta severidade em implantações de troca híbrida

Postagens relacionadas

MasterCard nega as plataformas de jogo pressionantes, Valve conta uma história diferente

O novo modelo QWEN-AMAGE DE ALBABA TEXTO DE HIGHOLIDADE DE HIGHOLIDADE DA IMIDE DE IMIDE

Falha grave na IA da Apple expõe dados sensíveis, diz Microsoft

Gupshum levanta US $ 60 milhões em patrimônio e dívida, deixa o status de unicórnio pendurado

Como nasce um sistema solar? Flagra inédito de nova formação planetária joga luz sobre origem da Terra; veja foto – O Globo

Meta para interromper os anúncios políticos secundários na UE a partir de outubro

Deixe um comentário Cancelar resposta

Dicas TechBlog

Realme GT 6

Galaxy Z Fold7 e Flip7 chegam ao Brasil: mais finos, potentes e com IA por até R$ 14.599!

Realme C61: Design premium e resistência.

Xiaomi Redmi Note 14 Pro 5G Midnight Black

Como usar o mapa do Instagram e definir seu compartilhamento de localização Preferencomes

A Microsoft traz GPT-5 para copiar aplicativos para Windows, Mac e dispositivos móveis

O IPO Hepefu Brex passou o major US para Sele na UE UE, planeja a Expanion do Reino Unido

GROK 4 bordam o GPT-5 no Comcut Razão Benchmark Arc-Ag

A pequena caixa AI da Corsair pode substituir sua área de trabalho, se você não se importa de pular uma GPU dedicada

GPT-5 Free Tier-3 recursos interessantes que você pode tentar agora por nada

A AMD Threadripper Pro 9000 esmaga Xeon em testes de criação de conteúdo, enquanto o líder da estação de trabalho da Intel começa a balançar

Chatgpt acabou de ficar muito mais inteligente-veja como falar com seus filhos sobre IA e GPT-5

Melhores Tópicos

Lojas Renner (LREN3) tem lucro líquido 28,4% maior no 2º tri, para R$ 404,5 milhões

Mais um país indica Trump ao Prêmio Nobel da Paz

Assaí (ASAI3) tem alta de 60% no lucro do 2º tri, para R$ 264 milhões

A pequena caixa AI da Corsair pode substituir sua área de trabalho, se você não se importa de pular uma GPU dedicada

GPT-5 Free Tier-3 recursos interessantes que você pode tentar agora por nada

Israel culpa Macron por vandalismo antissemita em Paris