Comment fonctionne la mémoire à large bande passante (HBM) : la puce dont l'IA ne peut se passer

Pourquoi l'IA a besoin d'un type de mémoire différent

Chaque fois qu'un grand modèle linguistique génère une phrase ou qu'un modèle de diffusion d'image produit une image, des milliards de paramètres doivent être transférés entre un processeur et sa mémoire. La mémoire conventionnelle ne peut pas suivre le rythme. Le goulot d'étranglement n'est pas la puissance de calcul, mais la bande passante mémoire, c'est-à-dire le débit auquel les données transitent vers et depuis la puce. La mémoire à large bande passante, ou HBM, a été conçue spécifiquement pour briser ce goulot d'étranglement, et elle est devenue le composant le plus recherché dans la pile matérielle de l'IA.

Empiler les puces comme un gratte-ciel

La DRAM traditionnelle répartit les puces mémoire côte à côte sur une carte de circuit imprimé, connectées par de longues pistes qui limitent la vitesse et gaspillent de l'énergie. La HBM adopte une approche radicalement différente : elle empile verticalement plusieurs puces DRAM, comme des étages dans un gratte-ciel, et les assemble en un seul boîtier compact.

Une pile HBM moderne peut contenir huit, voire douze couches de DRAM. Chaque couche est connectée à celles situées au-dessus et en dessous par des milliers de vias traversant le silicium (TSV), des trous microscopiques remplis de cuivre percés directement à travers le silicium. Ces TSV transportent les données verticalement au lieu d'horizontalement, réduisant considérablement la distance que les signaux doivent parcourir et diminuant considérablement la consommation d'énergie.

L'ensemble de la pile repose sur un interposeur en silicium, une fine tranche qui agit comme une autoroute à haut débit reliant la mémoire au GPU ou à l'accélérateur juste à côté. Étant donné que le chemin des données est de quelques millimètres plutôt que de quelques centimètres, la HBM atteint une bande passante qui serait physiquement impossible avec les conceptions conventionnelles.

Les chiffres qui comptent

Chaque pile HBM contient plusieurs canaux indépendants fonctionnant en parallèle. La génération actuelle, HBM3E, offre environ 1,2 téraoctet par seconde de bande passante par pile avec une capacité allant jusqu'à 36 Go. La prochaine génération, HBM4, double la largeur de l'interface, passant de 1 024 bits à 2 048 bits, et pousse la bande passante au-delà de 2 To/s par pile, ce qui est suffisant pour alimenter les plus grands modèles d'IA pendant l'entraînement et l'inférence.

Pour mettre les choses en perspective, une seule pile HBM4 transfère des données environ 16 fois plus rapidement que le module DDR5 le plus rapide, tout en consommant beaucoup moins d'énergie par bit transféré. Les GPU Blackwell de NVIDIA associent plusieurs piles HBM3E pour une bande passante combinée dépassant 8 To/s par puce.

Pourquoi la fabrication est si difficile

La construction de la HBM est l'une des tâches les plus difficiles de la fabrication de semi-conducteurs. Chaque TSV doit être gravé, revêtu et rempli de cuivre avec une précision submicrométrique sur chaque couche. À mesure que les piles grandissent, les tolérances d'alignement se resserrent et le rendement diminue. Un seul via défectueux dans une pile à douze couches peut rendre l'ensemble de l'unité inutilisable.

Seules trois entreprises dans le monde produisent en masse de la HBM : SK Hynix, Samsung et Micron. SK Hynix domine actuellement avec environ 57 % des livraisons mondiales de HBM, suivi de Samsung avec environ 35 % et de Micron avec environ 11 %, selon Counterpoint Research. Tous les trois ont vendu la totalité de leur capacité de production jusqu'à la fin de l'année.

Le mur de la mémoire et l'avenir de l'IA

Les ingénieurs appellent l'écart croissant entre la vitesse du processeur et la vitesse de la mémoire le « mur de la mémoire ». À mesure que les modèles d'IA passent de milliards à des milliers de milliards de paramètres, le mur devient plus haut. La HBM est le principal outil de l'industrie pour le franchir.

Bank of America estime que le marché de la HBM atteindra 54,6 milliards de dollars en 2026, soit un bond de 58 % par rapport à l'année précédente, avec des projections pointant vers 100 milliards de dollars d'ici 2028. La trajectoire de la technologie reflète la croissance explosive de l'IA : chaque nouvelle génération d'accélérateur exige plus de piles, plus de couches et plus de bande passante.

La HBM ne restera pas la seule solution éternellement : les chercheurs explorent des alternatives telles que le calcul en mémoire et les interconnexions optiques, mais dans un avenir prévisible, ces minuscules tours de silicium empilé restent le point de blocage qui détermine la vitesse à laquelle l'intelligence artificielle peut penser.

Comment fonctionne la mémoire à large bande passante (HBM) : la puce dont l'IA ne peut se passer

Pourquoi l'IA a besoin d'un type de mémoire différent

Empiler les puces comme un gratte-ciel

Les chiffres qui comptent

Pourquoi la fabrication est si difficile

Le mur de la mémoire et l'avenir de l'IA

Articles connexes

Fonctionnement des services secrets américains : genèse et raison d'être

Comment les robots apprennent à battre les humains au sport

Comment fonctionne le transfert Sim-to-Real : former des robots dans des mondes virtuels

Comment fonctionne votre odorat : du nez au cerveau

Fonctionnement de la loi martiale : pourquoi les démocraties la craignent

Comment des tissus mous survivent à l'intérieur des fossiles de dinosaures

Comment fonctionne l'effet cocktail des pesticides – et pourquoi c'est important

Qui sont les Touaregs et pourquoi se rebellent-ils sans cesse ?

Ne manquez pas les nouveaux articles !