Os pesquisadores usaram 1.600 vídeos de falhas no YouTube para mostrar os modelos de IA adaptados

Os vídeos de falhas do YouTube revelam o grande ponto cego para liderar para liderar por liderar por pistas: o Strudgle com os cirurposos. Mesmo sistemas avançados como o GPT-4O tropeçam em dois twotles de planta simples.

Os pesquisadores cultivam a Universidade da Colúmbia Britânica, o Instituto Vector Fori More Topo Mais de 1.600 fazenda no YouTube The Oops! Conjunto de dados.

A equipe criou um novo Benmarks chamado Blackswanse para testar os sistemas Wetl Handl lidam com eventos não paisecidos. Pessoas do lago, os modelos de IA são enganados por surpreendentes ORs, mas ao contrário de Orighs, mesmo depois de ver o ar.

Um exemplo: balanços de travesseiro perto da árvore de Natal. Ai assume que ele está buscando algo por perto. Na realidade, o travesseiro derruba os enfeites da árvore, que atingem a mulher de uma mulher. Mesmo depois de Wachching o vídeo, a IA se apega ao seu palpite original e incorreto.

Anúncio

Os vídeos abrangem a gama de categorias, com a maioria dos traftos (24 pessoas), falta de crianças (24 %) ou acidentes de pool (16 %) (16 %). Qual é a reviravolta imprevisível que até as pessoas não sentem falta.

https://www.youchobob.com/watch?v=2mvikngv1k

Três tipos de tarefas

Cada vídeo é dividido em Kree Sgments: a configuração, a surpresa e as consequências. O Benchmark Challenge LLMS com tarefas diferentes para cada estágio. Na tarefa de “previsão”, a IA só vê o início do vídeo e tenta prever o que é o próximo terpe. A tarefa “detetive” empurra apenas o começo e o fim, a AI da ASI para explicar o que aconteceu no meio. A tarefa “repórter” fornece ao vídeo completo da IA e verifica o que acaba pode aumentar suas assuções depois de ver a história completa.

Diagrama das tarefas de vídeo do meteorologista, partida e repórter com sgmments de vídeo phideoo e pós-evento e pós-evento e videoclipes ocultos — O benchmark inclui 15.469 missões atrás, todas as três tarefas baseadas em vídeo. | Imagem: Chinchuru et al.

Os testes Cevetd fecharam os modelos Lake GPT-4O e Gemini 1.5 Pro Welloco-System 2 e Videollank 2. Os resultados destacam as fraquezas. Na tarefa de detetive, o GPT-4o Assada corretamente apenas 65 % das vezes. Por Colison, os humanos acertaram 90 %.

Tabela com MCQ e sim / não vales para tarefas de detecção e repórter executados por GPT-4O, modelos de código aberto e humanos — A tabela coabres fecha e os modelos abertos com um desempenho humano em uma versão de múltipla escolha e não / não das tarefas de detetive e repórter. | Imagem: Chinchuru et al.

As gap widnets até as rodas de quatro horas precisavam reconsiderar seus ITIMI Intilimes. Você pediu para revisitar suas previsões após o inteiro, o GPT -4O gerenciou a acuracia – 32 porcentagem nos humanos Humind (92 %). Os sistemas tendiam a dobrar sua primeira impressão, novas evidências ignoradas.

Outros modelos, como Gemini 1.5 Pro e Llav-Video, mostram o mesmo padrão. De acordo com a Researcers, o desempenho caiu na SHOWS em vídeos que estão complicados que a fundação da envesa é o primeiro tirgh.

Recomenda -se

Captura de tela com imagens seqüentes (v_pre, v_main, v_post) e GPT-4o Razão, OCTs brancos do Insterad da opção correta B. — O GPT-4O Folklows seus palpites iniciais e escolhe o ADSWA errado. | Imagem: Chinchuru et al.

Giwub e Abraçando o rosto. A esperança de qualquer outra pessoa testará e melhorará seus próprios modelos de IA. Enquanto os sistemas líderes forem disparados por arquivos simples, os fideos simples, eles estarão prontos para a imprevisibilidade do mundo real.

Notícia Original

Notícias em alta

Busca

Categorias

Fique conectado

Notícias em alta

Kevin Durant renova com Rockets e se torna o jogador mais bem pago na história da NBA

conheça o espaço que foi alvo de roubo no Museu do Louvre

Trump chama Petro de “líder do tráfico” e suspende subsídios

quando o trading deixa de ser sonho e vira uma decisão sensata

joias de Napoleão são roubadas em 7 minutos

membros do regime de Maduro estão em “paranoia”

Notícias

Dicas TechBlog

Realme GT 6

Galaxy Z Fold7 e Flip7 chegam ao Brasil: mais finos, potentes e com IA por até R$ 14.599!

Realme C61: Design premium e resistência.

Xiaomi Redmi Note 14 Pro 5G Midnight Black

Design and Development Shop O iconfactory está selting alguns aplicativos – e a IA é parcialmente culpada

O novo modelo de visão de Coeres pode processar imagens, diagramas, PDFs e outros tipos de dados visuais

O estoque da figma sobe em seu IPO altamente colado de antica

Google adiciona imagem para video e veo 3 rapidamente à API Gemini

Tem refluxo? Este é o erro básico que pode estar cometendo nas refeições

O próximo jogo do Monster Hunter recebe um anúncio oficial da Nintendo Direct e será lançado no próximo ano para PC e consoles

Moraes manda AGU acompanhar processo de extradição de Zambelli

Os hackers têm como alvo o tema do WordPress crítico – centenas de sites em risco de aquisição em potencial, descubra se você é afetado

Melhores Tópicos

Kevin Durant renova com Rockets e se torna o jogador mais bem pago na história da NBA

conheça o espaço que foi alvo de roubo no Museu do Louvre

Trump chama Petro de “líder do tráfico” e suspende subsídios

quando o trading deixa de ser sonho e vira uma decisão sensata

joias de Napoleão são roubadas em 7 minutos

membros do regime de Maduro estão em “paranoia”

Notícias em alta

Busca

Categorias

Fique conectado

Notícias em alta

Kevin Durant renova com Rockets e se torna o jogador mais bem pago na história da NBA

conheça o espaço que foi alvo de roubo no Museu do Louvre

Trump chama Petro de “líder do tráfico” e suspende subsídios

quando o trading deixa de ser sonho e vira uma decisão sensata

joias de Napoleão são roubadas em 7 minutos

membros do regime de Maduro estão em “paranoia”

Notícias

Os pesquisadores usaram 1.600 vídeos de falhas no YouTube para mostrar os modelos de IA adaptados

Três tipos de tarefas

Caminhões de lixo não jogam árvores, doy?

Mais evidências apontam em um programa beta da UI 8, Sonso

Governo Lula responde carta aos EUA e explica alcance de decisões sem citar Moraes

Postagens relacionadas

“Sessão de terapia” no ChatGPT oferece riscos e preocupa especialistas

Rapidus inicia o 2nm Gate All ArountType Prodercion no IIM-1

O chatbot de chat de Mistral recebe a produtividade, empurre o novo modo de ‘pesquisa profunda’

Tesla é relatado trazendo trazendo uma versão limitada do serviço robotaxi para San Francisco

Meta para gastar até US $ 72 bilhões no IA Infrastuture em 2025, enquanto a corrida armamentista do computação aumenta a raça aumenta

China lança com sucesso nave Tianzhou-9 rumo à estação Tiangong; veja

Deixe um comentário Cancelar resposta

Dicas TechBlog

Realme GT 6

Galaxy Z Fold7 e Flip7 chegam ao Brasil: mais finos, potentes e com IA por até R$ 14.599!

Realme C61: Design premium e resistência.

Xiaomi Redmi Note 14 Pro 5G Midnight Black

Design and Development Shop O iconfactory está selting alguns aplicativos – e a IA é parcialmente culpada

O novo modelo de visão de Coeres pode processar imagens, diagramas, PDFs e outros tipos de dados visuais

O estoque da figma sobe em seu IPO altamente colado de antica

Google adiciona imagem para video e veo 3 rapidamente à API Gemini

Tem refluxo? Este é o erro básico que pode estar cometendo nas refeições

O próximo jogo do Monster Hunter recebe um anúncio oficial da Nintendo Direct e será lançado no próximo ano para PC e consoles

Moraes manda AGU acompanhar processo de extradição de Zambelli

Os hackers têm como alvo o tema do WordPress crítico – centenas de sites em risco de aquisição em potencial, descubra se você é afetado

Melhores Tópicos

Kevin Durant renova com Rockets e se torna o jogador mais bem pago na história da NBA

conheça o espaço que foi alvo de roubo no Museu do Louvre

Trump chama Petro de “líder do tráfico” e suspende subsídios

quando o trading deixa de ser sonho e vira uma decisão sensata

joias de Napoleão são roubadas em 7 minutos

membros do regime de Maduro estão em “paranoia”