I gestori del portafoglio di tecnologia globale Alison Porter, Graeme Clark e Richard Clode discutono del recente lancio di Ampere, l'ultimo acceleratore grafico di NVIDIA, che sembra destinato a rivoluzionare lo sviluppo del cloud computing, dell'intelligenza artificiale e della grafica per il gaming.

  In sintesi

  • Ampere ha un ruolo fondamentale nella visione di NVIDIA che prevede uno spostamento delle attività dal server ai centri dati, con un aumento di efficienza notevole.
  • NVIDIA considera Ampere un acceleratore del carico di lavoro sul cloud universale, in grado di gestire efficientemente sia l'addestramento dell'intelligenza artificiale che l'inferenza in un unico sistema.
  • Ampere consentirà enormi miglioramenti del ray tracing (grafica con la massima verosimiglianza), compreso l'uso di un motore di intelligenza artificiale per migliorare la performance.

Un'altra novità assoluta imposta dalla 'nuova normalità' del mondo COVID-19 è stata la presentazione 'da casa' del CEO di NVIDIA per il lancio formale di Ampere, la nuova unità di elaborazione grafica (GPU). Ciò non ha comunque detratto da uno dei più importanti lanci di semiconduttori degli ultimi anni, con implicazioni notevoli per l'intelligenza artificiale (AI), il cloud computing, il gaming e la Legge di Moore.

Ampere arriva tre anni dopo Volta, lanciato da NVIDIA verso la fine del 2017. Il balzo di performance di Volta e l'ottimizzazione per l'AI sono stati determinanti per l'adozione di processori grafici in grado di accelerare i carichi di lavoro nel cloud e il training dell'AI. NVIDIA era diventata in effetti lo standard per il training dell'AI, considerando la combinazione di un hardware di qualità eccellente e di dieci anni di investimenti nel software proprietario, CUDA. Il lancio di Volta aveva portato a un'inflessione fondamentale dell'AI e da allora nel giro di tre anni i ricavi di NVIDIA generati dai centri dati sono raddoppiati, superando 1 miliardo di dollari/trimestre.

Il calcolo (le attività svolte al computer) e l'AI sono legati indissolubilmente, essendo reciprocamente determinanti per la domanda. L'inflessione di AI a cui abbiamo assistito negli ultimi anni è stata consentita dalla performance di calcolo arrivata a un livello e con costi che hanno reso accessibili le reti neurali e il deep learning. Tuttavia, le nuove reti neurali più complesse quali i modelli BERT utilizzati per l'elaborazione del linguaggio naturale che consentono il funzionamento di Amazon Alexa e Google Home sono notevolmente più complesse e più ampie rispetto ai modelli precedenti. Ciò richiede un processore di nuova generazione in grado di soddisfare tali requisiti e dare via libera alla nuova ondata di innovazione dell'AI.

chip, microchip. semiconductor, semi, GPU, technology

Fonte: Getty Images.

Che cosa c'è all'interno di Ampere

Ampere è un passo avanti gigantesco, che potrebbe portare a una nuova inflessione dell'AI. Utilizzando la Legge di Moore per aumentare la densità dei transistor, Ampere riesce a ospitare 54 miliardi di transistor su un chip di dimensioni più o meno corrispondenti a quelle di Volta, che ne ospitava solo 21 miliardi. Comunque, un elemento indicativo delle sfide poste dalla Legge di Moore è il fatto che NVIDIA stia utilizzando il processo di produzione 7 nm di Taiwan Semiconductor Manufacturing CO (TSMC) invece del 5nm all'avanguardia utilizzato quest'anno da Apple per il nuovo iPhone. La capacità predittiva della Legge di Moore sta obbligando le società di semiconduttori a passare a miglioramenti nell'architettura, per continuare a soddisfare la domanda sempre più esigente dei clienti. Per Ampere, NVIDIA sta utilizzando la tecnologia di packaging CoWoS di TSMC per una migliore integrazione della memoria con ampiezza di banda elevata di nuova generazione, nonché il fabric InfiniBand di Mellanox, una società acquistata recentemente. In entrambi i casi queste interfacce più veloci riducono i colli di bottiglia provocati dallo spostamento di ampi gruppi di dati tra i processori oppure tra la memoria e i processori.

Spostamento delle operazioni di calcolo dal server ai centri dati

La nuova caratteristica importante di Ampere con implicazioni di rilievo è la capacità della GPU di virtualizzare fino a sette thread diversi. Ciò ha un ruolo fondamentale nella visione di NVIDIA che prevede uno spostamento delle attività di calcolo dal server ai centri dati. Analogamente ai server virtualizzati di VMWare con il loro software, la visione di NVIDIA prevede un mondo nel quale hardware e software virtualizzati consentono a un hyperscaler (quale Google, Facebook e Amazon che possono arrivare a una scala di calcolo enorme – abitualmente per.big data o cloud computing) di gestire qualsiasi carico di lavoro nel proprio centro dati con la massima efficienza.

La personalizzazione dei server in funzione di un carico di lavoro specifico diventerà un ricordo del passato. NVIDIA vede Ampere come un acceleratore del carico di lavoro sul cloud universale. In tale contesto, Ampere gestisce il training dell'AI e l'inferenza in un unico sistema. La performance elevata necessaria per il training dell'AI, con reti neutrali incredibilmente complesse richiedevano in passato un processo diverso dai requisiti meno esigenti dell'inferenza di AI, quando il risultato di tale modello di training viene applicato al mondo reale. Ampere può svolgere per la prima volta entrambe le funzioni efficientemente, poiché l'inferenza è virtualizzata mettendo a disposizione di fino a 56 utenti l'equivalente della performance di un chip Volta nell'ambito di un unico sistema Ampere.

Tagliare il costo del calcolo

La Legge di Moore ha guidato per decenni l'importanza crescente della tecnologia. Raddoppiare la capacità di calcolo a costi invariati è la curva esponenziale al centro di qualsiasi innovazione tecnologica. Ampere di NVIDIA è l'importante iterazione successiva di tale principio, e fornisce anche molto di più. La performance di Ampere consente di svolgere un carico di lavoro 20 volte superiore, poiché la Legge di Moore è accompagnata da una maggiore innovazione dell'hardware e del software, sia in termini di virtualizzazione che nell'ambito del CUDA, il linguaggio di programmazione proprietario utilizzato da quasi tutti i ricercatori di AI. Con Ampere, NVIDIA ha introdotto il supporto alla sparsity CUDA in quanto modelli di AI complessi possono funzionare molto più velocemente nascondendo pesi di modelli meno importanti (che stabiliscono l'influenza di un input sull'output) durante il processo iterativo, riducendo il volume di calcolo richiesto. Il risultato dell'impiego della piena potenza di NVIDIA nell'ampia serie di applicazioni tecnologiche è impressionante. Sono stati presentati vari esempi di sistemi A100 con il chip Ampere che svolgono lo stesso lavoro del V100 su base Volta a un decimo del costo e un ventesimo del consumo di energia. Ciò può essere visualizzato come una stanza piena di server rack, e sostituendoli con un unico server rack. Come ha detto il CEO di NVIDIA, "'più ne comprate, più risparmiate' e la società prevede che Ampere sarà un importante propulsore per ridurre i costi del calcolo sul cloud oltre che dello sviluppo e impiego dell'AI. Di conseguenza, sono già arrivati ordini per Ampere di importanti hyperscaler tra cui Amazon Web Services, Microsoft Azure, Google Cloud, Alibaba Cloud e Tencent Cloud.

Portare la grafica del gaming a un livello superiore

NVIDIA non ha annunciato alcun prodotto di gaming basato su Ampere, ma è previsto più avanti nel corso di quest'anno. Nel suo keynote il CEO di NVIDIA ha accennato agli enormi miglioramenti che Ampere può portare al ray tracing. Il ray tracing è la capacità di creare una grafica incredibilmente verosimile con l'integrazione di una rifrazione della luce completa. Ciò richiede un'energia notevole per l'elaborazione, ed era utilizzato per immagini create al computer (CGI) nei colossi cinematografici di Hollywood. Volta ha consentito di portare per la prima volta il ray tracing nei giochi per PC, poiché la performance di calcolo poteva essere ospitata su una scheda standard per il gaming a un costo ragionevole. Ampere lo farà salire di livello, e NVIDIA ha utilizzato anche un motore AI per migliorare la performance del ray tracing imparando come può apparire un'immagine con una risoluzione molto superiore, nonché i vettori della grafica di videogiochi per anticipare i pixel da mostrare in un'immagine futura. Dopo due anni di penetrazione del ray tracing, questi è attualmente supportato da tutti i motori principali di sviluppo e da giochi di grande successo quali Minecraft, Call of Duty: Modern Warfare e Battlefield V oltre che dalla nuova PlayStation 5 che sarà lanciata più avanti quest'anno. Le future schede per il gaming Ampere possono portare il ray tracing dei giochi per PC al livello successivo, mentre sembra che gli Ampere virtualizzati potrebbero svolgere un ruolo fondamentale nel futuro dei servizi per il gaming sul cloud.

Conclusione

Per gli appassionati di gaming così come per gli utenti di servizi online quali Amazon, Netflix o Spotify, costruiti sul cloud o dedicati all'interazione con servizi di AI quali Amazon Alexa, molti esperti del settore giudicano il lancio di Ampere di NVIDIA un importante passo avanti che consentirà di rendere tali servizi migliori e meno costosi.

Glossario:

GPU: un processore che esegue i complessi calcoli matematici e geometrici necessari per il rendering della computer grafica.

Legge di Moore: prevede che il numero di transistor che possono essere ospitati su un microchip raddoppierà circa ogni due anni, con un costo minore e un aumento della performance.

Capacità predittiva, o Stress di Moore: si riferisce alla nozione di lunga data secondo cui la potenza di elaborazione dei computer aumenta esponenzialmente ogni paio di anni ha raggiunto il limite. Mentre la scala dei componenti di chip si avvicina sempre più a quella dei singoli atomi, attualmente è più costoso e tecnicamente più difficile raddoppiare il numero di transistor e di conseguenza la potenza di elaborazione per un determinato chip ogni due anni. 

Elaborazione del linguaggio naturale (NLP): un ramo dell'AI che aiuta i computer a comprendere, interpretare e manipolare il linguaggio umano. La NLP attinge a molte discipline, tra cui scienza dei computer e linguistica computazionale, mirando a colmare il divario tra comunicazione umana e comprensione da parte del computer.

Virtualizzazione: si riferisce a un ambiente di calcolo simulato, o virtuale, piuttosto che a un ambiente fisico. La virtualizzazione comprende spesso versioni generate da computer di hardware, sistemi operativi, dispositivi per l'archiviazione e altro ancora. Ciò consente alle organizzazioni di ripartire un singolo computer fisico o server tra varie macchine virtuali. Ciascuna macchina virtuale può poi interagire indipendentemente e gestire sistemi operativi o applicazioni diverse, condividendo contemporaneamente le risorse di una singola macchina host.

Carico di lavoro: il volume di elaborazione assegnato a un computer per essere svolto in un determinato momento.

Training delll'AI: noto anche come machine learning, o apprendimento delle macchine, è un ramo dell'AI che consente ai sistemi di computer di imparare automaticamente e migliorare senza richiedere la programmazione da parte di un essere umano.

Deep learning / rete neutrale: un ´ramo del machine learning, costituito da una serie di algoritmi che mira a riconoscere le relazioni sottostanti di un gruppo di dati tramite un processo che imita la modalità di funzionamento del cervello umano.

Inferenza dell'AI: si riferisce all'elaborazione dell'intelligenza artificiale. Mentre il machine learning e il deep learning si riferiscono al training di reti neurali, l'inferenza dell'AI applica la conoscenza ricavata da un modello di rete neurale addestrato e l'utilizza per l'inferenza di un risultato.

Sparsity: utilizzata per accelerare l'AI riducendo i requisiti di moltiplicazioni di matrici del deep learning, abbreviando il tempo per ottenere buoni risultati.