Portefeuillebeheerders Global Technology, Alison Porter, Graeme Clark en Richard Clode bespreken de recente lancering van Ampere, de nieuwste grafische versneller van NVIDIA die een ‘game-changer’ lijkt te worden voor cloud computing, artificiële intelligentie en gaming-graphics.

  Kernpunten

  • Ampere speelt een sleutelrol in de visie van NVIDIA om computing van de servers te verschuiven naar datacentra om op die manier de efficiëntie in grote mate te verbeteren.
  • NVIDIA ziet Ampere als een universele versneller van werkbelasting die op een efficiënte manier zowel AI-training kan uitvoeren als AI-verwerking in een systeem mogelijk maakt.
  • Ampere biedt enorme verbeteringen in ‘ray tracing’ (levensechte graphics), met inbegrip van het gebruik van een AI-motor om de capaciteit te verbeteren.

De CEO van NVIDIA zag zich verplicht om de officiële lancering van Ampere – de nieuwe grafische verwerkingseenheid (GPU), alweer een nieuw product voor de wereld na Covid-19 – vanuit zijn keuken te doen. Maar dit deed geen afbreuk aan wat een van de belangrijkste lanceringen van een halfgeleider was in de afgelopen jaren omdat deze significante implicaties heeft voor artificiële intelligentie (AI), cloud computing, gaming en de wet van Moore.

Ampere komt meer dan drie jaar nadat NVIDIA op het einde van 2017 Volta lanceerde. De enorme sprong voorwaarts en de optimalisatie van AI dankzij Volta waren een game-changer voor de benutting van grafische verwerkingseenheden om de werkbelasting in de cloud te versnellen en voor AI-training. NVIDIA werd de facto de standaard voor AI-training gezien de combinatie van zijn superieure hardware en de decennialange investering in de bedrijfseigen softwarestack, CUDA. De lancering van Volta leidde tot een belangrijke inflectie in AI en sinds de lancering van Volta verdubbelden de inkomsten van de datacentra van NVIDIA in drie jaar tijd tot 1 mld USD per kwartaal.

Computing (computeractiviteiten) en AI zijn onlosmakelijk met elkaar verbonden omdat de ene een vraag naar de andere genereert en vice versa. De inflectie in AI die we de afgelopen jaren hebben gezien was mogelijk dankzij de computercapaciteit die een niveau en een kostprijs heeft bereikt die neurale netwerken en ‘deep learning’ rendabel maken. Maar complexere neurale netwerken zoals de BERT-modellen die worden gehanteerd voor natuurlijke taalverwerking en die aan de basis liggen van Amazon Alexa en Google Home, zijn aanzienlijk complexer en groter dan eerdere modellen. Dit vergt een volgende generatie processoren die voldoen aan deze vereisten en die de volgende golf AI-innovatie op gang kunnen brengen.

chip, microchip. semiconductor, semi, GPU, technology

Bron: Getty Images

Wat zit er in de Ampere?

Ampere is die reusachtige stap voorwaarts die alweer een nieuwe inflectie in AI kan veroorzaken. Om de densiteit van transistoren te verhogen deed Ampere beroep op de wet van Moore en bracht het 54 miljard transistoren samen op een chip die ongeveer dezelfde grootte heeft als de Volta die er maar 21 miljard had. Maar als een bewijs van de uitdagingen inzake de wet van Moore, maakt NVIDIA gebruik van het 7 nm-fabricatieproces van Taiwan Semiconductor Manufacturing Co’s (TSMC) en niet van de geavanceerde 5 nm die Apple dit jaar gebruikt voor zijn nieuwe iPhone. Moore’s Stress dwingt halfgeleiderbedrijven ertoe architecturale verbeteringen door te voeren om de prestatie-upgrades waarnaar klanten vragen, te kunnen bieden. Voor Ampere maakt NVIDIA gebruik van de CoWoS-verpakkingstechnologie van TSMC om de volgende generatie hogebandbreedtegeheugen beter te integreren en van de Infiniband-infrastructuur van het onlangs verworven Mellanox. In beide gevallen beperken deze snellere interfaces het aantal knelpunten wanneer grote datapakketten worden overgebracht tussen processoren onderling of van geheugen naar processoren.

Computing verplaatsen van servers naar datacentra

De belangrijkste nieuwe functie van Ampere die significante implicaties heeft, is de capaciteit van deze GPU om tot zeven verschillende ‘threads’ te virtualiseren. Dit is een cruciaal element achter de visie van NVIDIA om computing te verplaatsen van een server naar datacentra. VMWare virtualiseerde servers met zijn software; op dezelfde manier heeft NVIDIA een wereld voor ogen waar gevirtualiseerde hard- en software een hyperscaler (zoals Google, Facebook en Amazon die een enorme schaal kunnen bereiken – meestal voor ‘big data’ of ‘cloud computing’) in staat stellen ongeacht welke werkbelasting te verwerken in zijn datacentra met het oog op een optimale efficiëntie.

Servers aanpassen voor een specifieke werkbelasting zal voortaan tot het verleden behoren. NVIDIA ziet Ampere als een universele versneller van werkbelasting in de cloud. Als onderdeel hiervan biedt Ampere zowel AI-training als AI-verwerking in een systeem. De hoge capaciteitsvereisten van AI-training met ongelooflijk complexe neurale netwerken in het verleden vergden een verschillende processor in vergelijking met de lagere vereisten voor AI-verwerking waar de output van dat AI-trainingsmodel wordt toegepast in de echte wereld. Ampere kan beide functies voor het eerst efficiënt uitvoeren omdat de verwerking wordt gevirtualiseerd en zo een capaciteit biedt die te vergelijken is met die van een Volta-chip tot 56 gebruikers, en dit allemaal op één Ampere-systeem.

De kostprijs van computing verlaagt

De wet van Moore was decennialang een belangrijke drijfveer voor winst voor technologie-aandelen. De capaciteit om een verdubbeling van de computercapaciteit te bieden tegen dezelfde kostprijs vormt de exponentiële curve die aan de basis ligt van alle technologische innovatie. Ampere van NVIDIA is de volgende belangrijke iteratie van dit principe maar biedt nog veel meer dan dat. Ampere biedt een prestatie voor werkbelasting die tot 20 keer zo hoog is omdat de wet van Moore gepaard gaat met een bredere hardware- en software-innovatie, zowel op het gebied van virtualisatie als binnen CUDA, hun bedrijfseigen programmeertaal die wordt gebruikt door de meeste AI-onderzoekers. NVIDIA introduceerde de sparsity-ondersteuning van CUDA in Ampere waardoor complexe AI-modellen veel sneller kunnen worden uitgevoerd omdat ze minder belangrijke modelwegingen verbergen (die bepalen hoeveel invloed een input heeft op een output) tijdens het iteratieve proces omdat het de vereiste hoeveelheid berekeningen beperkt. Het resultaat van het brede gamma aan technologie dat NVIDIA kan inzetten is indrukwekkend. De A100-systemen die door Ampere worden aangedreven doen hetzelfde als een Volta-ondersteunde V100, maar tegen een 1/10e van de kostprijs en een 1/20ste van het energieverbruik. Of anders gezegd: een kamer vol serverrekken kan worden vervangen door een enkel serverrek. Of zoals de CEO van NVIDIA zei: ‘hoe meer je koopt, hoe meer je bespaart’ en het bedrijf voorspelt dat Ampere een belangrijke drijfveer zal zijn voor kostenbesparing in cloud computing en de ontwikkeling en implementatie van AI. Ampere ontving dan ook al bestellingen van de voornaamste ‘hyperscalers’ zoals Amazon Web Services, Microsoft Azure, Google Cloud, Alibaba Cloud en Tencent Cloud.

Gaming-graphics naar een hoger niveau tillen

Hoewel NVIDIA geen gamingproduct aankondigde dat gebaseerd is op Ampere, verwacht men dat het bedrijf dit later op het jaar zal doen. In zijn toespraak verwees de CEO van NVIDIA naar de enorme verbeteringen die Ampere voor ‘ray tracing’ kan bieden. ‘Ray tracing’ is de capaciteit om ongelooflijk levensechte graphics te creëren die een volledige lichtrefractie integreren. Dit vergt enorme hoeveelheden verwerkingsvermogen en werd gebruikt in computergegenereerde beelden (CGI) voor kaskrakers in Hollywood. Volta maakte het mogelijk om ‘ray tracing’ voor het eerst toe te passen in pc-games omdat de computercapaciteit kon worden ondergebracht op een standaard gamingkaart tegen een redelijke kostprijs. Ampere tilt dit tot een hoger niveau en NVIDIA heeft ook een AI-motor gebruikt om de prestatie van ‘ray tracing’ te verbeteren en te zien hoe een beeld met een veel hogere resolutie en de bewegingsvectoren van de video-graphics van live games eruitzien, om na te gaan welke pixels in de toekomst moeten worden weergegeven op een beeld. Na twee jaar penetratie van ‘ray tracing’, ondersteunen alle belangrijke game-ontwikkelingsmotoren momenteel ‘ray tracing’ en daarnaast ook populaire games zoals Minecraft, Call of Duty, Modern Warfare en Battlefield V plus de nieuwe PlayStation 5-console die later dit jaar wordt gelanceerd. Het is mogelijk dat toekomstige Ampere-gamingkaarten pc-games met ‘ray tracing’ naar een hoger niveau tillen en men meent dat de gevirtualiseerde Amperes mogelijk een sleutelrol zullen spelen in de toekomst van cloud gamingservices.

Conclusie

Ongeacht of u een gamer bent of online diensten gebruikt zoals Amazon, Netflix of Spotify die gebouwd zijn in de cloud of gebruikmaken van AI-diensten zoals Amazon Alexa, zien veel experts van de sector de lancering van Ampere van NVIDIA als een belangrijke stap voorwaarts omdat het dergelijke diensten beter en goedkoper kan maken.

Begrippenlijst:

GPU: voert complexe wiskundige en geometrische berekeningen uit, noodzakelijk voor de weergave van graphics.

Wet van Moore: voorspelt dat het aantal transistoren die op een microchip passen elke twee jaar ongeveer verdubbelt waardoor de relatieve kostprijs verlaagt en de capaciteit verhoogt.

Stress van Moore: verwijst naar het feit dat de lang gekoesterde opvatting dat het verwerkingsvermogen van computers elke twee jaar exponentieel verhoogt, stilaan op zijn limieten stoot. Naarmate de schaal van de chipcomponenten almaar dichter komt bij die van individuele atomen, wordt het almaar duurder en technisch moeilijker om het aantal transistoren en dus het verwerkingsvermogen voor een bepaalde chip elke twee jaar te verdubbelen. 

Natuurlijke taalverwerking: een tak van AI die computers helpt menselijke taal te begrijpen, te interpreteren en te manipuleren. Natuurlijke taalverwerking schakelt verscheidene disciplines in, inclusief computerwetenschappen en computationele linguïstiek om de kloof tussen menselijke communicatie en computerbegrip te dichten.

Virtualisering: verwijst naar een gesimuleerde of virtuele computeromgeving in tegenstelling tot een fysieke omgeving. Virtualisering omvat vaak computergegenereerde versies van hardware, besturingssystemen, opslagapparatuur en dergelijke. Het stelt organisaties in staat een enkele computer of server op te delen in verscheidene virtuele machines. Elk van deze virtuele machines kan dan onafhankelijk optreden en over verschillende besturingssystemen of toepassingen beschikken en tegelijk de hulpmiddelen van een host delen.

Werkbelasting: de hoeveelheid verwerking die een computer op een bepaald ogenblik moet uitvoeren.

AI-training: ook ‘machine learning’ genoemd, is een onderdeel van AI dat computersystemen in staat stelt automatisch te leren en te verbeteren zonder dat het systeem door een persoon moet worden geprogrammeerd.

‘Deep learning’/neuraal netwerk: is een onderdeel van ‘machine learning’ en bestaat uit een serie algoritmen die erop gericht is onderliggende relaties te herkennen in een set van gegevens in een proces dat de manier waarop het menselijke brein werkt, imiteert.

AI-verwerking: verwijst naar verwerking op basis van AI. ‘Machine learning’ en ‘deep learning’ verwijzen naar het trainen van neurale netwerken maar AI-verwerking past kennis uit een getraind neuraal netwerkmodel toe en gebruikt het om een resultaat te verwerken.

‘Sparsity’: wordt gebruikt om AI te versnellen door de vereiste hoeveelheid ‘deep learning’ door matrixvermenigvuldiging te beperken, wat ons sneller goede resultaten verschaft.