È ufficiale: NVIDIA ha fornito la piattaforma più veloce al mondo nei test standard del settore per l’inferenza sull’intelligenza artificiale generativa .
Negli ultimi benchmark MLPerf, NVIDIA TensorRT-LLM , un software che accelera e semplifica il complesso lavoro di inferenza su modelli linguistici di grandi dimensioni , ha aumentato le prestazioni delle GPU con architettura NVIDIA Hopper su GPT-J LLM di quasi 3 volte rispetto ai risultati di appena sei mesi fa.
L’incredibile accelerazione dimostra la potenza della piattaforma full-stack di chip, sistemi e software di NVIDIA per gestire gli impegnativi requisiti dell’esecuzione dell’intelligenza artificiale generativa.
Le aziende leader utilizzano TensorRT-LLM per ottimizzare i propri modelli. Inoltre , NVIDIA NIM , un insieme di microservizi di inferenza che include motori di inferenza come TensorRT-LLM, rende più semplice che mai per le aziende l’implementazione della piattaforma di inferenza di NVIDIA.
Alzare il livello dell’intelligenza artificiale generativa
TensorRT-LLM in esecuzione su GPU NVIDIA H200 Tensor Core , le più recenti GPU Hopper con memoria potenziata, ha fornito le prestazioni più veloci durante l’inferenza nel più grande test di intelligenza artificiale generativa condotto da MLPerf fino ad oggi.
Il nuovo benchmark utilizza la versione più grande di Llama 2, un modello di linguaggio di grandi dimensioni all’avanguardia che racchiude 70 miliardi di parametri. Il modello è più di 10 volte più grande del GPT-J LLM utilizzato per la prima volta nei benchmark di settembre .
Le GPU H200 con memoria potenziata, al loro debutto con MLPerf, hanno utilizzato TensorRT-LLM per produrre fino a 31.000 token/secondo, un record sul benchmark Llama 2 di MLPerf.
I risultati della GPU H200 includono guadagni fino al 14% da una soluzione termica personalizzata. È un esempio di innovazioni che vanno oltre il raffreddamento ad aria standard che i costruttori di sistemi stanno applicando ai loro progetti NVIDIA MGX per portare le prestazioni delle GPU Hopper a nuovi livelli.
Potenziamento della memoria per le GPU NVIDIA Hopper
NVIDIA sta campionando le GPU H200 ai clienti oggi e le consegnerà nel secondo trimestre. Saranno presto disponibili presso quasi 20 importanti costruttori di sistemi e fornitori di servizi cloud.
Le GPU H200 racchiudono 141 GB di HBM3e in esecuzione a 4,8 TB/s. Si tratta del 76% di memoria in più e di una velocità del 43% superiore rispetto alle GPU H100. Questi acceleratori si collegano alle stesse schede e sistemi e utilizzano lo stesso software delle GPU H100.
Con la memoria HBM3e, una singola GPU H200 può eseguire un intero modello Llama 2 70B con il throughput più elevato, semplificando e accelerando l’inferenza.
GH200 racchiude ancora più memoria
Ancora più memoria, fino a 624 GB di memoria veloce, inclusi 144 GB di HBM3e, è racchiusa nei superchip NVIDIA GH200 , che combinano su un unico modulo una GPU con architettura Hopper e una CPU NVIDIA Grace ad alta efficienza energetica . Gli acceleratori NVIDIA sono i primi a utilizzare la tecnologia di memoria HBM3e.
Con una larghezza di banda di memoria di quasi 5 TB/secondo, i superchip GH200 hanno fornito prestazioni straordinarie, anche nei test MLPerf ad uso intensivo di memoria come i sistemi di raccomandazione .
Scansione di ogni test MLPerf
In base all’acceleratore, le GPU Hopper hanno superato tutti i test di inferenza dell’intelligenza artificiale nell’ultimo ciclo di benchmark di settore MLPerf.
I benchmark coprono i carichi di lavoro e gli scenari di intelligenza artificiale più diffusi oggi, tra cui l’intelligenza artificiale generativa, i sistemi di raccomandazione, l’elaborazione del linguaggio naturale, il parlato e la visione artificiale. NVIDIA è stata l’unica azienda a inviare risultati su ogni carico di lavoro nell’ultimo round e in ogni round da quando i benchmark di inferenza del data center di MLPerf sono iniziati nell’ottobre 2020.
I continui miglioramenti delle prestazioni si traducono in costi inferiori per l’inferenza, una parte ampia e crescente del lavoro quotidiano per milioni di GPU NVIDIA distribuite in tutto il mondo.
Far avanzare ciò che è possibile
Spingendo i confini di ciò che è possibile, NVIDIA ha dimostrato tre tecniche innovative in una sezione speciale dei benchmark chiamata divisione aperta, creata per testare metodi avanzati di intelligenza artificiale.
Gli ingegneri NVIDIA hanno utilizzato una tecnica chiamata sparsità strutturata , un modo per ridurre i calcoli, introdotto per la prima volta con le GPU NVIDIA A100 Tensor Core , per offrire accelerazioni fino al 33% sull’inferenza con Llama 2.
Un secondo test a divisione aperta ha rilevato accelerazioni dell’inferenza fino al 40% utilizzando la potatura, un modo per semplificare un modello di intelligenza artificiale – in questo caso un LLM – per aumentare il throughput dell’inferenza.
Infine, un’ottimizzazione chiamata DeepCache ha ridotto i calcoli richiesti per l’inferenza con il modello Stable Diffusion XL, accelerando le prestazioni di un enorme 74%.
Tutti questi risultati sono stati eseguiti su GPU NVIDIA H100 Tensor Core .
Una fonte affidabile per gli utenti
I test di MLPerf sono trasparenti e oggettivi, quindi gli utenti possono fare affidamento sui risultati per prendere decisioni di acquisto informate.
I partner di NVIDIA partecipano a MLPerf perché sanno che si tratta di uno strumento prezioso per i clienti che valutano sistemi e servizi di intelligenza artificiale. Tra i partner che hanno presentato risultati sulla piattaforma AI NVIDIA in questo round figurano ASUS, Cisco, Dell Technologies, Fujitsu, GIGABYTE, Google, Hewlett Packard Enterprise, Lenovo, Microsoft Azure, Oracle, QCT, Supermicro, VMware (recentemente acquisita da Broadcom) e Wiwynn.
Tutto il software NVIDIA utilizzato nei test è disponibile nel repository MLPerf. Queste ottimizzazioni vengono continuamente inserite in contenitori disponibili su NGC , l’hub software di NVIDIA per le applicazioni GPU, nonché su NVIDIA AI Enterprise , una piattaforma sicura e supportata che include microservizi di inferenza NIM.
La prossima cosa grande
I casi d’uso, le dimensioni dei modelli e i set di dati per l’intelligenza artificiale generativa continuano ad espandersi. Ecco perché MLPerf continua ad evolversi, aggiungendo test nel mondo reale con modelli popolari come Llama 2 70B e Stable Diffusion XL.
Tenendo il passo con l’esplosione delle dimensioni dei modelli LLM, il fondatore e CEO di NVIDIA Jensen Huang ha annunciato la scorsa settimana al GTC che le GPU con architettura NVIDIA Blackwell forniranno i nuovi livelli di prestazioni richiesti per i modelli di intelligenza artificiale multimiliardari.
L’inferenza per modelli linguistici di grandi dimensioni è difficile e richiede sia esperienza che l’architettura full-stack dimostrata da NVIDIA su MLPerf con GPU con architettura Hopper e TensorRT-LLM. C’è molto altro in arrivo.
Scopri di più sui benchmark MLPerf e sui dettagli tecnici di questo round di inferenza.