NVIDIA: accelera l’inferenza su Meta Llama 3

Exreal

12 mesi fa

L’ultimo modello di linguaggio aperto di grandi dimensioni di Meta, realizzato con la tecnologia NVIDIA, è ottimizzato per l’esecuzione su GPU NVIDIA dal cloud e dal data center fino all’edge e al PC.

NVIDIA ha annunciato oggi ottimizzazioni su tutte le sue piattaforme per accelerare Meta Llama 3 , l’ultima generazione del Large Language Model ( LLM ).

Il modello aperto combinato con il computing accelerato consente a sviluppatori, ricercatori e aziende di innovare in modo responsabile in un’ampia varietà di applicazioni.

Formazione sull’intelligenza artificiale NVIDIA

Gli ingegneri di Meta hanno addestrato Llama 3 su un cluster di computer contenente 24.576 GPU H100 Tensor Core , collegate a una rete Quantum-2 InfiniBand . Con il supporto di NVIDIA, Meta ha ottimizzato la rete, il software e le architetture dei modelli per il suo LLM di punta.

Per far avanzare ulteriormente lo stato dell’arte dell’intelligenza artificiale generativa , Meta ha recentemente descritto i piani per scalare la propria infrastruttura a 350.000 GPU H100.

Mettere Llama 3 al lavoro

Le versioni di Llama 3, accelerate su GPU NVIDIA, sono oggi disponibili per l’utilizzo su cloud, data center, edge e PC.

Da un browser, gli sviluppatori possono provare Llama 3 su ai.nvidia.com . È confezionato come microservizio NVIDIA NIM con un’interfaccia di programmazione delle applicazioni standard che può essere distribuito ovunque.

Le aziende possono ottimizzare Llama 3 con i propri dati utilizzando NVIDIA NeMo , un framework open source per LLM che fa parte della piattaforma NVIDIA AI Enterprise sicura e supportata. I modelli personalizzati possono essere ottimizzati per l’inferenza con NVIDIA TensorRT-LLM e distribuiti con NVIDIA Triton Inference Server .

Portare Llama 3 su dispositivi e PC

Llama 3 funziona anche su NVIDIA Jetson Orin per dispositivi di robotica e edge computing, creando agenti interattivi come quelli del Jetson AI Lab .

Inoltre, le GPU NVIDIA RTX e GeForce RTX per workstation e PC velocizzano l’inferenza su Llama 3. Questi sistemi offrono agli sviluppatori un obiettivo di oltre 100 milioni di sistemi accelerati da NVIDIA in tutto il mondo.

Ottieni prestazioni ottimali con Llama 3

Le migliori pratiche nell’implementazione di un LLM per un chatbot implicano un equilibrio tra bassa latenza, buona velocità di lettura e utilizzo ottimale della GPU per ridurre i costi.

Un servizio di questo tipo deve fornire token – l’equivalente approssimativo di parole per un LLM – a circa il doppio della velocità di lettura di un utente, ovvero circa 10 token/secondo.

Applicando questi parametri, una singola GPU NVIDIA H200 Tensor Core ha generato circa 3.000 token al secondo, sufficienti per servire circa 300 utenti simultanei, in un test iniziale utilizzando la versione di Llama 3 con 70 miliardi di parametri.

Ciò significa che un singolo server NVIDIA HGX con otto GPU H200 potrebbe fornire 24.000 token al secondo, ottimizzando ulteriormente i costi supportando più di 2.400 utenti contemporaneamente.

Per i dispositivi edge, la versione di Llama 3 con otto miliardi di parametri ha generato fino a 40 token/secondo su Jetson AGX Orin e 15 token/secondo su Jetson Orin Nano.

Promozione dei modelli comunitari

Partecipante attivo all’open source, NVIDIA è impegnata a ottimizzare il software della community che aiuta gli utenti ad affrontare le sfide più difficili. I modelli open source promuovono inoltre la trasparenza dell’IA e consentono agli utenti di condividere ampiamente il lavoro sulla sicurezza e la resilienza dell’IA.

Scopri di più su come la piattaforma di inferenza AI di NVIDIA, compreso il modo in cui NIM, TensorRT-LLM e Triton utilizzano tecniche all’avanguardia come l’ adattamento di basso rango per accelerare gli LLM più recenti.