- Elon Musk planeja a IA Compute igual a 50 milhões de GPUs H100 em apenas cinco anos
- A meta de treinamento de Xai é igual a 50 exaflops, mas isso não significa 50 milhões de GPUs literais
- Alcançar 50 exaflops com H100s exigiria energia igual a 35 postos de energia nucleares
Elon Musk compartilhou um novo marco ousado para Xai, que é implantar o equivalente a 50 milhões de GPUs de classe H100 até 2030.
Emoldurado como uma medida do desempenho do treinamento de IA, a reivindicação refere -se a calcular a capacidade, não a contagem de unidades literais.
Ainda assim, mesmo com os avanços contínuos no hardware do acelerador de IA, essa meta implica compromissos extraordinários de infraestrutura, especialmente no poder e no capital.
Um salto enorme em escala de computação, com menos GPUs do que parece
Em um post em X, Musk declarou: “O objetivo XAI é de 50 milhões em unidades de computação de IA equivalente a H100 (mas muito melhor eficiência de energia) on -line dentro de 5 anos”.
Cada GPU da NVIDIA H100 AI pode fornecer cerca de 1.000 Tflops em FP16 ou BF16, formatos comuns para treinamento de IA – e atingir 50 exaflops usando essa linha de base exigiria teoricamente 50 milhões de H100s.
Embora arquiteturas mais recentes, como Blackwell e Rubin, melhorem drasticamente o desempenho por chip.
De acordo com as projeções de desempenho, apenas cerca de 650.000 GPUs usando a futura arquitetura Feynman Ultra podem ser obrigados a atingir o alvo.
Inscreva -se no boletim do TechRadar Pro para obter todas as principais notícias, opinião, recursos e orientações que sua empresa precisa para ter sucesso!
A empresa já começou a escalar agressivamente, e seu atual cluster Colossus 1 é alimentado por 200.000 GPUs H100 e H200 baseados na tremonha, além de 30.000 chips GB200 baseados em Blackwell.
Um novo cluster, Colossus 2, está programado para ficar on -line em breve com mais de 1 milhão de unidades de GPU, combinando 550.000 nós GB200 e GB300.
Isso coloca o XAI entre os mais rápidos adotantes de escritor de IA de ponta e tecnologias de treinamento modelo.
A empresa provavelmente escolheu o H100 em relação ao H200 mais recente, porque o primeiro continua sendo um ponto de referência bem compreendido na comunidade de IA, amplamente comparado e usado nas principais implantações.
Sua taxa de transferência FP16 e BF16 consistente o torna uma unidade de medida clara para o planejamento de longo prazo.
Mas talvez a questão mais premente seja energia. Um cluster de 50 exaflops ai alimentado por GPUs H100 exigiria 35 GW, o suficiente para 35 usinas nucleares.
Mesmo usando as GPUs projetadas mais eficientes, como a Feynman Ultra, um cluster de 50 exaflops pode exigir até 4.685 GW de energia.
Isso é mais do que o triplo do uso de energia do próximo Colossus 2 de Xai. Mesmo com os avanços na eficiência, o fornecimento de energia em escala continua sendo uma incerteza importante.
Além disso, o custo também será um problema. Com base nos preços atuais, um único NVIDIA H100 custa mais de US $ 25.000.
O uso de 650.000 GPUs da próxima geração ainda pode representar dezenas de bilhões de dólares apenas em hardware, sem contar interconexão, resfriamento, instalações e infraestrutura de energia.
Por fim, o plano de Musk para Xai é tecnicamente plausível, mas financeiramente e logisticamente assustador.
Via Tomshardware
Fique conectado