Technologie

Comment fonctionnent les puces d'IA personnalisées et pourquoi les géants de la tech les construisent

Les géants de la technologie comme Google, Amazon et Meta conçoivent leurs propres puces d'IA personnalisées, appelées ASIC, afin de réduire leur dépendance aux GPU Nvidia, de diminuer les coûts et d'optimiser les performances pour des charges de travail d'IA spécifiques.

R
Redakcia
5 min de lecture
Partager
Comment fonctionnent les puces d'IA personnalisées et pourquoi les géants de la tech les construisent

Pourquoi les géants de la tech ont cessé d'acheter sur étagère

Pendant des années, les GPU de Nvidia ont alimenté pratiquement toutes les charges de travail d'intelligence artificielle de la planète. Mais une révolution discrète est en cours : les plus grandes entreprises technologiques du monde conçoivent leurs propres puces personnalisées. Google, Amazon, Meta et Microsoft ont tous investi des milliards dans des circuits intégrés spécifiques à une application (ASIC), des puces conçues spécifiquement pour l'IA plutôt qu'empruntées au monde du jeu vidéo.

La motivation est simple. Les GPU à usage général sont polyvalents, mais cette polyvalence a un coût : des transistors gaspillés, une consommation d'énergie excessive et un prix élevé fixé par un seul fournisseur dominant. Les puces personnalisées promettent de modifier ces trois variables simultanément.

Qu'est-ce qu'un ASIC ?

Un ASIC est une puce conçue de A à Z pour une tâche spécifique. Contrairement à un GPU, qui peut exécuter des milliers d'algorithmes différents, un ASIC intègre directement dans ses circuits des opérations mathématiques particulières, telles que les multiplications matricielles essentielles aux réseaux neuronaux. Le résultat est un processeur qui exécute sa charge de travail cible plus rapidement et avec moins d'énergie qu'une alternative à usage général.

Selon le Center for Security and Emerging Technology de l'Université de Georgetown, les puces d'IA se répartissent en trois grandes catégories : les GPU pour l'entraînement flexible, les FPGA pour l'inférence reconfigurable et les ASIC pour l'accélération à fonction fixe hautement optimisée. Chacune remplit un créneau différent, mais les ASIC offrent le meilleur rapport performance/watt lorsque les charges de travail sont prévisibles et à volume élevé.

Comment fonctionne le processus de conception

La construction d'une puce d'IA personnalisée n'est ni rapide ni bon marché. La conception d'un seul ASIC peut coûter des centaines de millions de dollars et prendre deux à trois ans, de la conception à la production. Les entreprises s'associent généralement à des sociétés de conception spécialisées, Broadcom et Marvell étant les deux principaux acteurs, qui fournissent des blocs de propriété intellectuelle, une technologie d'interconnexion et une expertise approfondie en matière d'architecture de puces.

Une fois la conception finalisée, elle est envoyée à une fonderie comme TSMC pour la fabrication. Étant donné que les circuits sont gravés de manière permanente dans le silicium, il n'y a pas de place pour l'erreur : si les modèles d'IA passent à des opérations mathématiques fondamentalement différentes, une puce personnalisée peut devenir obsolète. Cette inflexibilité est le principal compromis de l'approche ASIC.

Qui construit quoi

Google a été le pionnier de cette tendance. En 2013, les ingénieurs ont calculé que le déploiement de la recherche vocale auprès de 300 millions d'utilisateurs nécessiterait de doubler la capacité totale des centres de données de l'entreprise si elle s'appuyait uniquement sur des processeurs conventionnels. La première Tensor Processing Unit (TPU) est entrée en production seulement 15 mois plus tard, selon CNBC. Les TPU de Google ont depuis atteint leur sixième génération, Trillium, et dominent plus de 70 % du marché des puces d'IA personnalisées pour serveurs cloud.

Amazon est entré dans la course après avoir acquis la startup israélienne de puces Annapurna Labs en 2015. Ses puces Trainium, qui en sont maintenant à leur deuxième génération, privilégient la bande passante de la mémoire et l'efficacité de l'interconnexion par rapport au débit brut en virgule flottante, des choix architecturaux adaptés aux charges de travail des grands modèles linguistiques qui dominent l'IA moderne, rapporte WebProNews. Meta, quant à lui, a développé son propre ASIC appelé Meta Training and Inference Accelerator (MTIA), optimisé pour les modèles de recommandation et de classement qui alimentent son activité publicitaire.

Les GPU ne sont pas près de disparaître, pour l'instant

Les ASIC personnalisés excellent dans l'inférence, c'est-à-dire l'exécution d'un modèle entraîné pour générer des prédictions, où les charges de travail sont prévisibles et le volume est énorme. Mais l'entraînement de nouveaux modèles, en particulier les systèmes de pointe, exige toujours la flexibilité des GPU et de l'écosystème logiciel CUDA mature de Nvidia.

Les données de l'industrie provenant de Counterpoint Research prévoient que les livraisons d'ASIC personnalisés augmenteront de 44,6 % en 2026, tandis que les livraisons de GPU augmenteront de 16,1 %, un écart qui illustre la direction que prend la dynamique. Les analystes s'attendent à ce que les ASIC triplent leurs livraisons totales d'ici 2027.

Pourquoi c'est important

Le passage au silicium personnalisé remodèle l'économie de l'intelligence artificielle. Les entreprises qui contrôlent leur propre approvisionnement en puces peuvent réduire les coûts, améliorer l'efficacité énergétique et diminuer leur dépendance à un seul fournisseur. Pour les consommateurs, cela se traduit par des services d'IA plus rapides et, potentiellement, des prix plus bas. Pour Nvidia, cela signifie que ses clients les plus lucratifs deviennent également des concurrents, une tension qui définira l'industrie des semi-conducteurs pour les années à venir.

Cet article est également disponible dans d'autres langues :

Articles connexes