Alison Porter, Graeme Clark et Richard Clode, gérants de la stratégie Global Technology, discutent du récent lancement d'Ampere, le dernier accélérateur graphique de NVIDIA, qui se profile comme une révolution pour le développement du cloud computing, de l'intelligence artificielle et des graphismes de jeu vidéo.

  Principaux points à retenir

  • Ampere joue un rôle clé dans la vision de NVIDIA qui consiste à faire passer les activités informatiques du niveau du serveur à celui du centre de données, en en améliorant considérablement l'efficacité.
  • NVIDIA considère Ampere comme un accélérateur universel du traitement de la charge de travail dans le cloud, qui peut efficacement assurer à la fois la formation et l'inférence de l’IA dans un seul système.
  • Ampere permettra d'améliorer considérablement le « ray tracing » (graphisme réaliste), notamment grâce à l'utilisation d'un moteur d'intelligence artificielle pour améliorer les performances.

Le PDG de NVIDIA, contraint de s’exprimer « depuis sa cuisine » pour le lancement officiel d'Ampere, le nouveau processeur graphique (GPU) de la société, était une autre forme première dans le nouveau monde normal sous COVID-19. Cela n'a toutefois pas empêché le lancement de l'un des plus importants semi-conducteurs de ces dernières années, ayant des implications importantes pour l'intelligence artificielle (IA), le cloud computing, les jeux vidéo et la loi de Moore.

Ampere arrive plus de trois ans après le lancement de Volta par NVIDIA fin 2017. Le gain de performance et l'optimisation de Volta pour l'IA a changé la donne pour l'adoption de processeurs graphiques permettant d'accélérer le traitement des charges de travail dans le cloud et pour la formation de l'IA. NVIDIA est devenu le standard de facto pour la formation de l'IA grâce à la combinaison de son matériel de pointe et d'une décennie d'investissement dans sa suite logicielle interne, CUDA. Le lancement de Volta a entraîné une inflexion importante dans l'IA et depuis, les revenus des centres de données de NVIDIA ont doublé en trois ans pour atteindre plus d'un milliard de dollars par trimestre.

Le calcul (les activités de calcul) et l'IA sont inexorablement liés, l'un entraîne la demande pour l'autre et vice versa. L'inflexion vers l'IA observée ces dernières années a été permise par des performances de calcul atteignant un niveau et un coût qui ont rendu viables les réseaux neuronaux et le « deep learning ». Toutefois, les nouveaux réseaux neuronaux plus complexes, comme les modèles BERT utilisés pour le traitement du langage naturel qui permettent d'utiliser Amazon Alexa et Google Home, sont nettement plus compliqués et plus importants que les modèles précédents. Il faut donc un processeur de nouvelle génération pour répondre à ces exigences et débloquer la prochaine vague d'innovation en matière d'IA.

chip, microchip. semiconductor, semi, GPU, technology

Source : Getty Images

Ce qu'il y a à l'intérieur d'Ampere

Ampere est un pas de géant qui pourrait potentiellement conduire à une nouvelle étape de l'IA. Utilisant la loi de Moore pour augmenter la densité des transistors, Ampere intègre 54 milliards de transistors sur une puce à peu près de la même taille que Volta qui n'en avait que 21 milliards. Cependant, pour illustrer les défis de la loi de Moore, NVIDIA utilise le processus de fabrication 7nm de Taiwan Semiconductor Manufacturing Co (TSMC) et non le 5nm de pointe qu'Apple utilise cette année pour le nouvel iPhone. Le stress de Moore oblige les entreprises de semi-conducteurs à se tourner vers des améliorations structurelles pour continuer à obtenir les augmentations de performance que les clients exigent. Pour Ampere, NVIDIA utilise la technologie de packaging CoWoS de TSMC pour mieux intégrer la mémoire haut débit de prochaine génération ainsi que le tissu Infiniband de Mellanox, une acquisition récente. Dans les deux cas, ces interfaces plus rapides réduisent les goulots d'étranglement liés au déplacement de grands ensembles de données entre les processeurs ou de la mémoire vers les processeurs.

Déplacer les calculs du serveur vers le centre de données

La principale nouveauté d'Ampere qui a des implications importantes est la capacité de ce GPU à virtualiser jusqu'à sept fils différents. Ampere joue un rôle clé dans la vision de NVIDIA consistant à faire passer les activités informatiques du niveau du serveur à celui du centre de données. De la même manière que les serveurs virtualisés VMWare avec leurs logiciels, NVIDIA envisage un monde où le matériel et les logiciels virtualisés permettent à un « hyperscaler » (tels que Google, Facebook et Amazon qui ont des capacités informatiques gigantesques - généralement pour le big data ou le cloud computing) d'exécuter n'importe quelle charge de travail n'importe où dans son centre de données afin de maximiser l'efficacité.

La personnalisation des serveurs pour une charge de travail spécifique va être reléguée comme une chose du passé. NVIDIA considère Ampere comme un accélérateur universel de la charge de travail dans le cloud. Dans ce cadre, Ampere assure à la fois la formation de l'IA et l'inférence dans un seul système. Les exigences de performance élevées pour l'entraînement de l'IA avec des réseaux de neurones incroyablement complexes dans le passé nécessitaient un processeur différent par rapport aux exigences plus légères de l'inférence à l'IA où les résultats de ce modèle d'entraînement de l'IA sont appliqués au monde réel. Pour la première fois, Ampere peut remplir efficacement ces deux fonctions car l’inférence est virtualisée, ce qui permet d'obtenir des performances équivalentes à celles d'une puce Volta pour 56 utilisateurs au sein d'un seul système Ampere.

Réduire le coût du calcul

La loi de Moore a été un facteur clé des progrès technologiques depuis des décennies. La capacité à fournir deux fois plus de calculs pour le même coût est la courbe exponentielle au cœur de toute innovation technologique. Ampere de NVIDIA est la prochaine grande itération de ce principe, et offre bien plus que cela. Ampere offre des performances jusqu'à 20 fois supérieures pour les charges de travail, car la loi de Moore est associée à une innovation de matériel plus large ainsi qu'à une innovation logicielle, tant en termes de virtualisation qu'au sein de CUDA, leur langage de programmation exclusif utilisé par la plupart des chercheurs en IA. NVIDIA a introduit le support CUDA sparsity avec Ampere, grâce auquel les modèles d'IA complexes peuvent s'exécuter beaucoup plus rapidement en masquant les poids de modèle moins importants (qui déterminent l'influence d'un intrant sur le résultat) pendant le processus itératif, ce qui réduit la quantité de calcul nécessaire. Le résultat de la mise en œuvre de toute la puissance de la large gamme de technologies de NVIDIA est très impressionnant. Nous avons vu de nombreux exemples de systèmes A100 fonctionnant sous Ampere, qui font le même travail qu'un V100 sous volta pour 1/10e du coût et 1/20e de la consommation électrique. Visuellement, cela revient à prendre une salle pleine d’armoires de serveurs et à les remplacer par une seule armoire. Comme l'a dit le PDG de NVIDIA, « plus vous achetez, plus vous économisez » et la société prévoit qu'Ampere sera un élément majeur de la réduction du coût du cloud computing et du développement et du déploiement de l'IA. Par conséquent, les grands « hyperscalers » ont déjà passé commandes, notamment Amazon Web Services, Microsoft Azure, Google Cloud, Alibaba Cloud et Tencent Cloud.

Faire passer les graphismes des jeux à un autre niveau

Bien que NVIDIA n'ait pas annoncé de produit de jeu vidéo basé sur Ampere, cela devrait se faire plus tard dans l'année. Le PDG de NVIDIA a fait référence aux énormes améliorations qu'Ampere peut apporter au « ray tracing » lors de son intervention. Le « ray tracing » est la capacité de créer des graphiques incroyablement réalistes intégrant la réfraction totale de la lumière. Cette technique, qui nécessite une grande puissance de traitement, a été utilisée dans les films à succès d'Hollywood en imagerie générée par ordinateur (CGI). Grâce à Volta, le « ray tracing » a pu être introduit pour la première fois dans les jeux PC comme les performances de calcul pouvaient être hébergées sur une carte de jeu standard à un coût raisonnable. Ampere va permettre de passer à la vitesse supérieure et NVIDIA a également utilisé un moteur d'IA pour améliorer les performances du « ray tracing » pour apprendre à quoi ressemble une image de bien plus haute résolution ainsi que les vecteurs de mouvement des graphiques vidéo des jeux en direct pour anticiper les pixels qui devront être affichés dans l’image à venir. Après deux ans de pénétration du « ray tracing », tous les principaux moteurs de développement de jeux acceptent à présent le « ray tracing » tout comme les jeux célèbres comme Minecraft, Call of Duty : Modern Warfare et Battlefield V plus la nouvelle console PlayStation 5 qui sera lancée plus tard cette année. Les futures cartes de jeu Ampere pourraient faire passer les jeux PC de « ray tracing » à un niveau supérieur, tandis que les Amperes virtualisés sont considérés comme ayant un rôle clé potentiel à jouer dans l'avenir des services de jeux en ligne.

Conclusion

Que vous soyez un joueur, que vous utilisiez des services en ligne comme Amazon, Netflix ou Spotify qui sont construits dans le cloud ou que vous interagissiez avec des services d'IA comme Amazon Alexa, de nombreux experts du secteur considèrent le lancement d'Ampere de NVIDIA comme une avancée majeure ayant la capacité d’améliorer ces services tout en en diminuant le coût.

Glossaire :

GPU : effectue des calculs mathématiques et géométriques complexes qui sont nécessaires au rendu graphique.

La loi de Moore : prévoit que le nombre de transistors pouvant être intégrés à une micropuce doublera tous les deux ans, ce qui réduira le coût relatif et augmentera les performances.

Le stress de Moore : suggère que l'idée reçue selon laquelle la puissance de traitement des ordinateurs augmente de façon exponentielle tous les deux ans a atteint sa limite. Comme l'échelle des composants des puces se rapproche de plus en plus de celle des atomes individuels, il est maintenant plus coûteux et techniquement plus difficile de doubler le nombre de transistors et, par conséquent, la puissance de traitement pour une puce donnée tous les deux ans. 

Traitement du langage naturel : une branche de l'IA qui aide les ordinateurs à comprendre, interpréter et manipuler le langage humain. La PNL s'inspire de nombreuses disciplines, dont l'informatique et la linguistique informatique, dans sa quête pour combler le fossé entre la communication humaine et la compréhension des ordinateurs.

Virtualisation : désigne un environnement informatique simulé, ou virtuel, plutôt qu'un environnement physique. La virtualisation comprend souvent des versions générées par ordinateur du matériel, des systèmes d'exploitation, des périphériques de stockage, etc. Cela permet aux organisations de partitionner un seul ordinateur ou serveur physique en plusieurs machines virtuelles. Chaque machine virtuelle peut alors interagir indépendamment et exécuter différents systèmes d'exploitation ou applications tout en partageant les ressources d'une seule machine hôte.

Charge de travail : la quantité de traitement qu'un ordinateur a été chargé d'effectuer à un moment donné.

Formation de l'IA : l'apprentissage par la machine est un sous-ensemble de l'IA qui permet aux systèmes informatiques d'apprendre et de s'améliorer automatiquement, sans être programmés par un humain.

« deep learning »/réseau neuronal : sous-ensemble de l'apprentissage par la machine, il s'agit d'une série d'algorithmes qui visent à reconnaître les relations sous-jacentes dans un ensemble de données par un processus qui imite la façon dont fonctionne le cerveau humain.

Inférence de l’IA : se réfère au traitement de l'intelligence artificielle. Alors que l'apprentissage par la machine et le « deep learning » se réfèrent à la formation de réseaux neuronaux, l'inférence de l’IA applique les connaissances d'un modèle de réseau neuronal formé et les utilise pour déduire un résultat.

Sparsity : est utilisé pour accélérer l'IA en réduisant les volumes de multiplication matricielle que nécessite le « deep learning », ce qui raccourcit le temps nécessaire pour obtenir de bons résultats.