- Perspectiva adicional Frough Saty Participante Quein Anthony
Atualização de 13 de julho de 2025:
Quentin Anthony, um dos 16 deveres envolvidos no estudo METR, Compartilhado oi, assuma os resultados No X. MOPTICANTES DESNIMIMENTO, Anthony conseguiu reduzir a compressão de comentários Hisk em 38 % de descobertas em rede.

Anthony atribui a produtividade mais ampla que não a falta de habilidade, mas à maneira como o Develoach se aproxima das ferramentas da APA. “Vamos mentir para s Que os LLMs são ferramentas, mas trate mais o que é o que “ele diz.
Ele também destaca poços técnicos. Os modelos de idiomas de Laarda, ele argam, têm um Ueven Strical: o EEE eficaz para o trabalho de escritores de escritos Sich Arnra progredindo ou lógica de sincronização. Anthony aponta para O penomeno de “podridão do contexto”Onde os LLMs se tornam menos confiáveis à medida que os DATs crescem por muito tempo ou afastam-se com o desenvolvimento de Daneer.
Anúncio
Seu conselho: inicie o novo Chasi com frequência, os modelos Choen com base em seus pontos fortes específicos e defina a empresa como TSE poderia gastar troping com lims.
Anthony Himsel usa modelos diferentes para diferentes Jobs-Geminini para código de código de código, Claude para refatoração e depuração. Ele prefere o acesso direto sobre os plugins IDE para melhor controlar exatamente o que o modelo vê. Como esse putt, “os LLMs são ferramentas e ervas daninhas para começar a aprender suas armadilhas e alerta de seleção”.
Artigo original Fazenda 11 de julho de 2025:
Um novo estudo constata que o desenvolvimento do desenvolvimento de código aberto, mais lento, com Tirie acredita que eles estão se movendo mais rápido.
Pesquisadores no Instituto METR Julgamento Randizado em Eardy 2025 para ver como a AI Ferramenta Avançada Afptividade de experientes de experientes experientes. Em média, os Deverepers fazem 19 % mais para concluir as tarefas do mundo real que usam, mesmo do que o que eles têm a Wrue Oprimita.
Recomenda -se
A lacuna de percepção: Fast parece lento
O estudo seguiu 16 Experience Deverrers Asy abordou 246 tarefas reais de seus próprios projetos complexos de código aberto. Antes de começar, os Deverrers previram que Ai Woold tornou OM 24 % mais rápido.
Para medir o verdadeiro impacto, a ECHCH Taskom é randomy assisged em grupos: os grups de trole aéreo usando assistentes, principalmente. Cursor Pro Com os principais modelos Lake Claude 3.5 e Claude 3,7 sonetos.
O desenvolvimento registrou suas telas e registrou quanto tempo cada um demorou. Para contabilizar os níveis de dificuldade, os pesquisadores usaram atmentos atentos ATSED incluíram os próprios esuths dos Deverers para cada tarefa. Isso eles isolam como os atos de uso usam o tempo de mudança acrinante, independentemente da tarefa, foi fácil ou difícil.
A descoberta principal: embora os Deverepers esperassem economizar tempo, os dados mostram a opção. Mesmo depois de terminar as tarefas aéreas, eles ainda acreditam que a IA havia feito o Madeem 20 % mais rápido, apesar de acliqueticamente intervir por muito tempo.
O impacto no mundo real requer novos métodos de medição
METR ARGES que os resultados da CANA mostram a necessidade de novas maneiras de medir as tomadas para os efeitos do mundo real da IA carpetiva. Mentiras populares de benchmarks benulares Swee-banch ou Re-banco Ticicicamente se concentre em tarefas sem fofaca e sem fofas e avaliação algorítmica, que pode fazer a imagem. Na conflito, ensaios de contribst aleatoriamente como este teste reais de teste em testes reais, dando uma visão mais completa de como.
Perguntei ao nosso desenvolvedor de AR onde os Resusus McOd sua impressão de seu dia a dia. Eles são plausíveis, especialmente no contexto de projetos maduros e complexos, com a alta qualidade, implicam rues, um projeto de fonte intens. A IA Ferramenta Coupd causa expansão e controle adicional.
A situação é diferente para novos projetos ou protipagem rápida, bem como quando o WIM provougentemente conhece Framorys. Nesses Senarios, as ferramentas de IA poderiam jogar com seus estratos e realmente apoiar os destacadores.