AMD ha dichiarato di aver ricevuto una richiesta per costruire un enorme supercomputer basato su 1,2 milioni di GPU per data center, una quantità assurda se si considerano le dinamiche di mercato.
AMD potrebbe scatenare una “corsa all’oro” con l’hype del cluster AI di prossima generazione, mentre l’azienda rivela il coinvolgimento in un potenziale supercomputer da 1,2 milioni di GPU
Bene, il Team Red potrebbe aver trovato il suo prossimo “colossale” cliente, dato che l’azienda afferma che potrebbe essere coinvolta nella costruzione di un cluster AI che ospita ben 1,2 milioni di GPU. Parlando con The Next Platform , l’EVP e GM del Datacenter Solutions Group di AMD, Forrest Norrod, ha affermato che AMD ha ricevuto richieste da “clienti sconosciuti”, che richiedono la fornitura di una quantità enorme di acceleratori AI, e questo è stato convalidato dopo che gli è stato chiesto se qualcuno stesse prendendo in considerazione un’iniziativa del genere.
TPM: Qual è il più grande cluster di addestramento AI che qualcuno prende sul serio? Non devi fare nomi. Qualcuno è venuto da te e ti ha detto che con MI500, ho bisogno di 1,2 milioni di GPU o qualcosa del genere.
Forrest Norrod: Rientra in quell’intervallo? Sì.
TPM: Non puoi semplicemente dire “è in quell’intervallo”. Qual è il numero effettivo più grande?
Forrest Norrod: Dico sul serio, rientra in quell’intervallo.
TPM: Per una macchina.
Forrest Norrod: Sì, sto parlando di una sola macchina.
TPM: Mi lascia un po’ perplesso, sai?
Forrest Norrod: Capisco. La portata di ciò che si sta contemplando è sconvolgente. Ora, tutto ciò si realizzerà? Non lo so. Ma ci sono resoconti pubblici di persone molto sobrie che stanno contemplando di spendere decine di miliardi di dollari o addirittura cento miliardi di dollari in cluster di formazione.
Forrest Norrod – Vicepresidente esecutivo di AMD (tramite The Next Platform)
Rinfreschiamo un po’ la memoria. Se pensi ancora che 1,2 milioni di GPU non siano una cifra enorme, il più grande supercomputer del mondo, il Frontier , ne utilizza circa 38.000, e avere 1,2 milioni di GPU a bordo significa che c’è un enorme divario di 30 volte nel calcolo grafico, solo per le GPU, il che è scioccante. E, se consideri solo l’interconnettività di uno stack grafico così grande, è semplicemente sconcertante e potrebbe essere impossibile considerando la tecnologia odierna.
Crediamo che avere 1,2 milioni di GPU in un cluster AI sia impossibile? Beh, no. Il motivo è che con il modo in cui l’AI sta progredendo, la necessità di una potenza di calcolo adeguata è cresciuta rapidamente e, come dice lo stesso Forrest, “le persone sobrie” sono pronte a spendere miliardi nella costruzione di data center su larga scala per facilitare la domanda presente nei mercati.
Se si equipaggia un supercomputer con 1,2 milioni di acceleratori AI Instinct MI300X di AMD, ciò costerebbe all’incirca 18 miliardi di dollari solo per le GPU, se si considera che una singola unità costa circa 15.000 dollari. E non si considerano nemmeno i requisiti di potenza di un tale super-cluster. Se l’AI continua ad accelerare allo stesso ritmo di adesso, allora possiamo aspettarci l’emergere di tali supercomputer in tutto il mondo. Sarà un investimento enorme e ci vorranno anni per completarlo, ma una volta ultimato, queste saranno alcune delle piattaforme di elaborazione più veloci del pianeta.
Il CEO di NVIDIA Jensen Huang ha affermato che il segmento dei data center dovrebbe crescere fino a diventare un mercato da mille miliardi di dollari nei prossimi anni, e si vociferava che Microsoft e OpenAI stessero pianificando di costruire un supercomputer dal valore di 100 miliardi di dollari, lo Stargate, quindi una cifra di 1,2 milioni di GPU non è del tutto off-record. Le grandi aziende tecnologiche sceglieranno AMD invece di NVIDIA? Questa è la domanda a cui solo il tempo potrà rispondere.