Os vídeos de falhas do YouTube revelam o grande ponto cego para liderar para liderar por liderar por pistas: o Strudgle com os cirurposos. Mesmo sistemas avançados como o GPT-4O tropeçam em dois twotles de planta simples.
Os pesquisadores cultivam a Universidade da Colúmbia Britânica, o Instituto Vector Fori More Topo Mais de 1.600 fazenda no YouTube The Oops! Conjunto de dados.
A equipe criou um novo Benmarks chamado Blackswanse para testar os sistemas Wetl Handl lidam com eventos não paisecidos. Pessoas do lago, os modelos de IA são enganados por surpreendentes ORs, mas ao contrário de Orighs, mesmo depois de ver o ar.
Um exemplo: balanços de travesseiro perto da árvore de Natal. Ai assume que ele está buscando algo por perto. Na realidade, o travesseiro derruba os enfeites da árvore, que atingem a mulher de uma mulher. Mesmo depois de Wachching o vídeo, a IA se apega ao seu palpite original e incorreto.
Anúncio
O boletim do decodificador
A notícia mais importante para sua caixa de entrada.
✓ Semanalmente
✓ Free
✓ Cancelar no horário
Os vídeos abrangem a gama de categorias, com a maioria dos traftos (24 pessoas), falta de crianças (24 %) ou acidentes de pool (16 %) (16 %). Qual é a reviravolta imprevisível que até as pessoas não sentem falta.
https://www.youchobob.com/watch?v=2mvikngv1k
Três tipos de tarefas
Cada vídeo é dividido em Kree Sgments: a configuração, a surpresa e as consequências. O Benchmark Challenge LLMS com tarefas diferentes para cada estágio. Na tarefa de “previsão”, a IA só vê o início do vídeo e tenta prever o que é o próximo terpe. A tarefa “detetive” empurra apenas o começo e o fim, a AI da ASI para explicar o que aconteceu no meio. A tarefa “repórter” fornece ao vídeo completo da IA e verifica o que acaba pode aumentar suas assuções depois de ver a história completa.

Compartilhar
Recomendar nosso artigo
Os testes Cevetd fecharam os modelos Lake GPT-4O e Gemini 1.5 Pro Welloco-System 2 e Videollank 2. Os resultados destacam as fraquezas. Na tarefa de detetive, o GPT-4o Assada corretamente apenas 65 % das vezes. Por Colison, os humanos acertaram 90 %.

As gap widnets até as rodas de quatro horas precisavam reconsiderar seus ITIMI Intilimes. Você pediu para revisitar suas previsões após o inteiro, o GPT -4O gerenciou a acuracia – 32 porcentagem nos humanos Humind (92 %). Os sistemas tendiam a dobrar sua primeira impressão, novas evidências ignoradas.
Outros modelos, como Gemini 1.5 Pro e Llav-Video, mostram o mesmo padrão. De acordo com a Researcers, o desempenho caiu na SHOWS em vídeos que estão complicados que a fundação da envesa é o primeiro tirgh.
Caminhões de lixo não jogam árvores, doy?
A raiz do problema está na maneira como esses modelos de IA são treinados. Eles aprendem identificando padrões em milhões de vídeos e experimentam esses padrões a serem repetidos. Então, onde os draps de um caminhão de lixo caiam, a IA fica confusa-não tem padrão para isso.

Para identificar o problema, a equipe tentou trocar a percepção de percepção do vídeo da IA para os dados de dados. Isso aumentou o desempenho da Llava-Video em 6,4 %. A adição de ainda mais expansão aumentou em outros 3,6 %, para obter ganho de tortal de 10 %.
Ironicamente, isso apenas ressalta a fraqueza dos modelos: se o desempenho da IA, ele falha em “ver” e “entender” antes que qualquer motivo real comece.
Os seres humanos, por confraste, são rápidos em repensar o seu assumido, assumindo assumir, assumir suposições que atenam novas informações. Correntes a IA modela a sorte dessa flexibilidade mental.
Essa falha acoplou seriados de hed para aplicações do mundo real, como carros autônomos e sistemas autônomos. A vida está cheia de surpresas: as crianças entram na rua, os objetos caem de caminhões e outros motoristas fazem o pente unine.
A equipe de pesquisa disponibilizou o Benmark Giwub e Abraçando o rosto. A esperança de qualquer outra pessoa testará e melhorará seus próprios modelos de IA. Enquanto os sistemas líderes forem disparados por arquivos simples, os fideos simples, eles estarão prontos para a imprevisibilidade do mundo real.
Postagens relacionadas
Firefly Aerospace Arquivos para um IPO
Deixe um comentário Cancelar resposta
Dicas TechBlog
Moto E22: O Celular Barato da Motorola com Som Estéreo e Tela de 90 Hz!
Uma startup de semeaddade não causou inundações
Richst Man da Índia quer virar todos os initários da TV do PC
As ferramentas de codificação da AI AI podem não acelerar todos os desenvolvedores, estudar shars
Plataforma de desenvolvimento da AI Leardship Praxis Labs vende para a tocha
Goleiro campeão brasileiro pelo Athletico-PR, Flávio morre aos 54 anos
Avião explode após decolar no aeroporto de Londres e assusta famílias
Menopausa e risco cardíaco: 80% das mulheres vive em alerta
Trump diz manter discussões com UE sobre comércio, um dia após anunciar tarifa
Categorias
- Air Fryer (2)
- Avaliações (14)
- Celulares (16)
- Celulares Realme (3)
- Celulares Samsung (7)
- Celulares Xiaomi (6)
- Cozinhar (1)
- Dicas e Tutoriais (3)
- Economia (72)
- Eletrodomésticos (1)
- Galaxy A (1)
- Galaxy M (1)
- Galaxy S (1)
- Galaxy Z (2)
- iPhone (1)
- Moto E (1)
- Moto G (1)
- Motorola (6)
- Motorola Edge (1)
- Motorola Razr (1)
- Mundo (83)
- Notícias (237)
- POCO (1)
- Pós & Contras (13)
- Realme 14 (1)
- Redmi (3)
- Redmi Note (2)
- Tecnologia (292)
- Últimas Notícias (305)
- Xiaomi Mi (1)
Fique conectado