Die Manager des globalen Technologie-Portfolios Alison Porter, Graeme Clark und Richard Clode besprechen die jüngste Markteinführung von Ampere, NVIDIAs neuestem Grafikbeschleuniger, der für die Entwicklung von Cloud Computing, künstlicher Intelligenz und Gaming-Grafiken wegweisend sein dürfte.

  Zentrale Erkenntnisse

  • Ampere spielt bei NVIDIAs Vision, Rechenaktivitäten vom Server auf die Ebene des Rechenzentrums zu verlagern und damit die Effizienz deutlich zu steigern, eine Schlüsselrolle.
  • NVIDIA sieht Ampere als universellen Beschleuniger für Cloud-Arbeitslasten, der sowohl KI-Training als auch Inferenzierung in einem einzigen System effizient durchführen kann.
  • Ampere wird enorme Verbesserungen beim Ray-Tracing (naturgetreue Grafiken) ermöglichen, wobei unter anderem eine KI-Engine zur Leistungssteigerung zum Einsatz kommt.

Dass der CEO von NVIDIA gezwungen war, eine „Küchen-Keynote“ zu halten, um den neuen Grafikprozessor (GPU) des Unternehmens namens Ampere offiziell vorzustellen, war eine weitere Premiere in der neuen Normalität der COVID-19-Welt. Das tat jedoch einer der wichtigsten Markteinführungen neuer Halbleiter in den letzten Jahren, die erhebliche Auswirkungen auf künstliche Intelligenz (KI), Cloud Computing, Spiele und das Moore‘sche Gesetz hat, keinen Abbruch.

Ampere kommt mehr als drei Jahre nach der Einführung von NVIDIA Volta Ende 2017 auf den Markt. Voltas Leistungssprung und die Optimierung für künstliche Intelligenz (KI) waren damals ein wegweisender Schritt für die Einführung von Grafikprozessoren zur Beschleunigung von Arbeitslasten in der Cloud sowie für KI-Training. NVIDIA wurde dank der Kombination seiner überlegenen Hardware und der seit zehn Jahren getätigten Investitionen in den firmeneigenen Softwarestack CUDA zum De-facto-Standard für KI-Training. Die Einführung von Volta führte zu einem entscheidenden Wendepunkt in der KI, und seit der Einführung von Volta haben sich NVIDIAs Einnahmen im Bereich der Rechenzentren innerhalb von drei Jahren auf mehr als 1 Mrd. US-Dollar pro Quartal verdoppelt.

Computing (Rechenaktivitäten) und KI sind untrennbar miteinander verbunden, wobei das eine die Nachfrage nach dem anderen ermöglicht und umgekehrt. Die Wende in der KI, die wir in den letzten Jahren erlebt haben, wurde dadurch ermöglicht, dass die Rechenleistung ein Niveau und einen Kostenfaktor erreicht hatte, die neuronale Netze und tiefes Lernen möglich machten. Neue, komplexere neuronale Netze wie die für die Verarbeitung natürlicher Sprache verwendeten BERT-Modelle, die Amazon Alexa und Google Home zugrunde liegen, sind jedoch wesentlich komplexer und größer als frühere Modelle. Dies erfordert einen Prozessor der nächsten Generation, der diese Anforderungen erfüllt und die nächste Welle der KI-Innovation anstößt.

chip, microchip. semiconductor, semi, GPU, technology

Quelle: Getty Images.

Was in Ampere steckt

Ampere stellt jenen gewaltigen Schritt nach vorne dar, der möglicherweise einen weiteren Wendepunkt in der KI herbeiführen könnte. Ampere baut auf dem Moore‘schen Gesetz auf, das eine Steigerung der Dichte von Transistoren fordert. So packt Ampere 54 Milliarden Transistoren auf einen Chip, der etwa so groß ist wie Volta, der lediglich 21 Milliarden hatte. NVIDIA verwendet allerdings den 7-nm-Fertigungsprozess von Taiwan Semiconductor Manufacturing Co. (TSMC) und nicht die führende 5-nm-Technologie, die Apple in diesem Jahr im neuen iPhone einsetzt, was die Herausforderungen des Moore‘schen Gesetzes verdeutlicht. Der vom Moore‘schen Gesetz verursachte Druck zwingt Halbleiterunternehmen, architektonische Verbesserungen vorzunehmen, um die von den Kunden geforderten Leistungssteigerungen weiter voranzutreiben. Für Ampere setzt NVIDIA die CoWoS-Packaging-Technologie von TSMC ein, um Speicher der nächsten Generation mit hoher Bandbreite besser zu integrieren, sowie Infiniband-Gewebe vom kürzlich erworbenen Unternehmen Mellanox. In beiden Fällen reduzieren diese Hochgeschwindigkeits-Schnittstellen Engpässe bei der Übertragung großer Datenmengen zwischen den Prozessoren oder vom Speicher zu den Prozessoren.

Verlagerung der Rechenleistung vom Server zum Rechenzentrum

Das wichtigste neue Merkmal von Ampere, das erhebliche Konsequenzen mit sich bringt, ist die Fähigkeit dieses Grafikprozessors, auf bis zu sieben verschiedene Threads zu virtualisieren. Dies spielt bei NVIDIAs Vision, die Rechenleistung vom Server auf die Ebene des Rechenzentrums zu verlagern, eine Schlüsselrolle. Genauso wie VMWare Server mit seiner Software virtualisiert hat, stellt sich NVIDIA eine Welt vor, in der virtualisierte Hard- und Software es einem Hyperscaler (wie Google, Facebook oder Amazon, der im Bereich der Datenverarbeitung – typischerweise in den Bereichen Big Data oder Cloud Computing – enorme Größenordnungen erreichen kann) ermöglicht, jegliche Arbeitslast überall in seinem Rechenzentrum auszuführen, um so die Effizienz zu maximieren.

Die individuelle Anpassung von Servern für eine bestimmte Arbeitslast wird der Vergangenheit angehören. NVIDIA sieht Ampere als universellen Beschleuniger für Cloud-Workloads. In diesem Sinne übernimmt Ampere sowohl KI-Training als auch Inferenzierung innerhalb eines einzigen Systems. Die hohen Leistungsanforderungen des KI-Trainings mit unglaublich komplexen neuronalen Netzen erforderten in der Vergangenheit im Vergleich zu den leichteren Anforderungen für die KI-Inferenzierung, bei der die Ausgabe dieses KI-Trainingsmodells auf die reale Welt angewendet wird, einen anderen Prozessor. Ampere kann erstmalig beide Funktionen effizient ausführen, da die Inferenzierung virtualisiert wird, wodurch die äquivalente Leistung eines Volta-Chips für bis zu 56 Benutzer innerhalb eines einzigen Ampere-Systems zur Verfügung steht.

Senkung der Rechenkosten

Das Moore‘sche Gesetz ist seit Jahrzehnten eine wichtige Triebkraft hinter den Zugewinnen von Technologieaktien. Die Fähigkeit, bei gleichen Kosten eine doppelt so hohe Rechenleistung zu erbringen, resultiert in der Exponentialkurve, die das Herzstück jeglicher technologischer Innovation darstellt. Ampere von NVIDIA ist die nächste große Iteration dieses Prinzips und liefert noch sehr viel mehr als das. Ampere bietet eine bis zu 20 Mal höhere Leistung für Arbeitslasten, da das Moore‘sche Gesetz mit umfassenderen Hardware-Innovationen sowie Software-Innovationen verknüpft wird, sowohl in Bezug auf die Virtualisierung als auch innerhalb von CUDA, der proprietären Programmiersprache, die von den meisten KI-Forschern verwendet wird. NVIDIA hat mit Ampere zudem Unterstützung für CUDA Sparsity eingeführt, wodurch komplexe KI-Modelle viel schneller ausgeführt werden können, indem weniger wichtige Modellgewichte (die bestimmen, wie viel Einfluss eine Eingabe auf die Ausgabe hat) während des iterativen Prozesses ausgeblendet werden, so dass sich der erforderliche Berechnungsaufwand reduziert. Wird die ganze Kraft des breiten Technologiespektrums von NVIDIA zum Tragen gebracht, ergibt sich ein beeindruckendes Ergebnis. Es wurden mehrere Beispiele für Ampere-betriebene A100-Systeme präsentiert, die für 1/10 der Kosten und 1/20 des Stromverbrauchs dieselbe Leistung wie ein Volta-basiertes V100-System erbringen. Visuell betrachtet bedeutet das, einen Raum voller Server-Racks durch ein einziges Server-Rack zu ersetzen. Wie der CEO von NVIDIA es formuliert hat: „Je mehr man kauft, desto mehr spart man“. Das Unternehmen geht davon aus, dass Ampere maßgeblich dazu beitragen wird, die Kosten für die Entwicklung und Bereitstellung von Cloud-Computing und KI zu senken. Dementsprechend sind beim Unternehmen bereits Bestellungen für Ampere von großen Hyperscalern wie Amazon Web Services, Microsoft Azure, Google Cloud, Alibaba Cloud und Tencent Cloud eingegangen.

Aufstieg in eine völlig neue Liga von Gaming-Grafiken

Auch wenn NVIDIA noch kein Gaming-Produkt auf der Basis von Ampere angekündigt hat, wird dies allgemein im weiteren Verlauf dieses Jahres erwartet. In seiner Keynote-Rede verwies der CEO von NVIDIA auf die enormen Verbesserungen, die Ampere im Bereich Ray-Tracing ermöglichen kann. Unter Ray-Tracing versteht man die Fähigkeit, unglaublich lebensechte Grafiken mit voller Lichtbrechung zu erstellen. Dies erfordert enorme Mengen an Rechenleistung und wurde für computergenerierte Bilder (CGI) in Hollywood-Blockbuster-Filmen eingesetzt. Mit Volta konnte Ray-Tracing erstmals für PC-Spiele genutzt werden, da die Rechenleistung zu vertretbaren Kosten auf einer Standard-Gaming-Karte untergebracht werden konnte. Mit Ampere wird das Thema auf ein ganz neues Niveau angehoben. NVIDIA hat außerdem eine KI-Engine zur Verbesserung der Ray-Tracing-Leistung eingesetzt. Sie lernt, wie ein Bild mit sehr viel höherer Auflösung aussieht und welche Bewegungsvektoren für Live-Spiele-Videografiken benötigt werden. Damit kann sie vorhersehen, welche Pixel in einem zukünftigen Bild angezeigt werden müssen. Nachdem sich Ray-Tracing über einen Zeitraum von zwei Jahren hinweg immer mehr am Markt durchgesetzt hat, unterstützen inzwischen alle wichtigen Engines für die Spieleentwicklung Ray-Tracing. Gleiches gilt für Hit-Spiele wie Minecraft, Call of Duty: Modern Warfare und Battlefield V sowie die neue PlayStation 5-Konsole, die im weiteren Verlauf dieses Jahres auf den Markt kommen soll. Zukünftige Ampere-Gaming-Karten könnten das Ray-Tracing in PC-Spielen auf die nächste Stufe heben, während virtualisierten Amperes eine mögliche Schlüsselrolle in der Zukunft von Cloud-Gaming-Diensten zugeschrieben wird.

Fazit

Ganz gleich, ob Sie Gamer sind, Online-Dienste wie Amazon, Netflix oder Spotify nutzen, die in der Cloud eingerichtet wurden, oder mit KI-Diensten wie Amazon Alexa interagieren – viele Branchenexperten sehen die Einführung von NVIDIAs Ampere als einen großen Schritt nach vorn, der die Möglichkeit bietet, diese Dienste besser und kostengünstiger zu machen.

Glossar:

Grafikprozessor (GPU): führt komplexe mathematische und geometrische Berechnungen durch, die für die Grafikwiedergabe erforderlich sind.

Moore‘sches Gesetz: sagt voraus, dass sich die Anzahl der Transistoren, die auf einen Mikrochip passen, alle zwei Jahre ungefähr verdoppeln wird, wodurch die relativen Kosten sinken und die Leistung steigt.

Moore‘scher Druck: bezieht sich auf die seit langem vertretene Auffassung, dass die alle paar Jahre erwartete exponentielle Zunahme der Rechenleistung von Computern ihre Grenze erreicht hat. Da sich die Größenordnung der Chipkomponenten immer mehr der Größe einzelner Atome annähert, ist es heute teurer und technisch schwieriger, die Anzahl der Transistoren und damit die Verarbeitungsleistung für einen bestimmten Chip alle zwei Jahre zu verdoppeln. 

Verarbeitung natürlicher Sprache: ein Zweig der KI, der Computern hilft, menschliche Sprache zu verstehen, zu interpretieren und zu manipulieren. Die Verarbeitung natürlicher Sprache bedient sich vieler Disziplinen, darunter die Informatik und die Computerlinguistik, um so die Lücke zwischen menschlicher Kommunikation und Computerverständnis zu schließen.

Virtualisierung: bezieht sich auf eine simulierte bzw. virtuelle Computerumgebung anstelle einer physischen Umgebung. Virtualisierung umfasst häufig computergenerierte Versionen von Hardware, Betriebssystemen, Speichergeräten und mehr. Dies ermöglicht es Organisationen, einen einzelnen physischen Computer oder Server in mehrere virtuelle Maschinen zu partitionieren. Jede virtuelle Maschine kann dann unabhängig interagieren und verschiedene Betriebssysteme oder Anwendungen ausführen, wobei die Ressourcen eines einzelnen Host-Rechners gemeinsam genutzt werden.

Arbeitslast: die Menge der Verarbeitung, die ein Computer zu einem bestimmten Zeitpunkt zu erledigen hat.

KI-Training: auch bekannt als maschinelles Lernen, ist eine Untergruppe der KI, die es Computersystemen ermöglicht, automatisch zu lernen und sich zu verbessern, ohne von einem Menschen programmiert zu werden.

Tiefes Lernen/neuronales Netzwerk: eine Untergruppe des maschinellen Lernens; es handelt sich um eine Reihe von Algorithmen, die darauf abzielen, zugrunde liegende Beziehungen in einem Datensatz durch einen Prozess zu erkennen, der die Funktionsweise des menschlichen Gehirns nachahmt.

KI-Inferenz: bezieht sich auf die Verarbeitung künstlicher Intelligenz. Während sich maschinelles Lernen und tiefes Lernen auf das Training neuronaler Netze beziehen, wendet die KI-Inferenz Wissen aus einem trainierten neuronalen Netzwerkmodell an und verwendet es, um ein Ergebnis abzuleiten.

Sparsity: wird zur Beschleunigung von KI verwendet, indem die für das tiefe Lernen erforderlichen Häufungen der Matrix-Multiplikation reduziert werden, so dass sich die Zeit bis zur Erreichung guter Ergebnisse verkürzt.