Comment les géants de la tech conçoivent des puces d'IA sur mesure – et pourquoi

La course aux puces derrière l'essor de l'IA

Chaque fois que vous posez une question à un chatbot d'IA, que vous regardez une recommandation en streaming sur Netflix ou que vous déverrouillez votre téléphone avec votre visage, une puce informatique spécialisée effectue le gros du travail. Pendant des années, cette puce provenait presque certainement de Nvidia. Mais quelque chose est en train de changer. Google, Amazon, Meta et Apple conçoivent désormais leurs propres puces – et cela remodèle l'ensemble de l'industrie de l'IA.

Qu'est-ce qu'une puce d'IA sur mesure ?

Une puce d'IA sur mesure est un circuit intégré spécifique à une application (ASIC) – un matériel conçu pour effectuer une catégorie de tâches extrêmement bien, plutôt qu'un large éventail de choses de manière adéquate. Contrairement à un GPU à usage général, qui a été initialement conçu pour le rendu de graphiques de jeux vidéo et ensuite réutilisé pour l'IA, une puce d'IA sur mesure est construite à partir de zéro autour des mathématiques dont l'apprentissage automatique a réellement besoin : multiplications matricielles massives, arithmétique de faible précision et mouvements de données rapides entre la mémoire et les unités de calcul.

L'élément de base central est souvent une unité de multiplication matricielle (MXU) – un circuit dédié qui peut multiplier d'énormes grilles de nombres en parallèle. Étant donné que les réseaux neuronaux sont essentiellement des chaînes de multiplications matricielles, une puce fortement dotée en MXU peut traiter les charges de travail d'IA beaucoup plus efficacement qu'un GPU qui doit également prendre en charge des fonctionnalités graphiques complexes qu'il n'utilisera jamais dans un centre de données.

Qui construit quoi

Google a été le pionnier. Son Tensor Processing Unit (TPU), déployé en interne pour la première fois en 2015, alimente désormais Gemini, Google Search et – notamment – les modèles Apple Intelligence entraînés dans le cloud de Google. La dernière génération, Ironwood, est arrivée fin 2025. Amazon Web Services a suivi avec sa famille Trainium pour l'entraînement et Inferentia pour l'inférence ; Trainium3 offre jusqu'à 4,4 fois plus de puissance de calcul que son prédécesseur tout en utilisant environ un quart de l'énergie. Meta a dévoilé quatre générations de son Meta Training and Inference Accelerator (MTIA) en mars 2026, conçu sur l'architecture open-source RISC-V et fabriqué par TSMC, couvrant tout, du classement des flux à l'IA générative. Le Neural Engine d'Apple, intégré à chaque puce iPhone et Mac depuis 2017, gère les tâches sur l'appareil telles que la reconnaissance faciale et le traitement vocal sans envoyer de données vers le cloud.

Pourquoi ne pas simplement acheter plus de GPU Nvidia ?

Les GPU H100 et B200 de Nvidia restent la référence pour la recherche de pointe en IA et pour l'entraînement des plus grands modèles de pointe. Mais pour les charges de travail de routine et continues qui constituent la majeure partie des dépenses d'IA d'une entreprise – la diffusion de recommandations, l'exécution d'inférences sur des milliards de requêtes quotidiennes – les GPU à usage général entraînent des frais généraux importants. Ils gaspillent de l'énergie sur des fonctionnalités dont l'inférence à grande échelle n'a pas besoin.

Les puces sur mesure éliminent ces frais généraux. AWS estime que ses instances Trainium offrent une performance-prix de 30 à 40 % supérieure à celle des instances GPU Nvidia équivalentes pour les charges de travail d'entraînement. Meta affirme que ses puces MTIA surpassent Nvidia sur certaines tâches de classement et de recommandation tout en coûtant nettement moins cher par opération. Sur des milliards de requêtes quotidiennes, ces gains d'efficacité se traduisent par des centaines de millions de dollars d'économies annuelles.

Il existe également une dimension stratégique. Dépendre entièrement d'un seul fournisseur – même un fournisseur dominant – crée un risque. Les pénuries d'approvisionnement, les restrictions à l'exportation et le pouvoir de fixation des prix deviennent autant de vulnérabilités. La construction de puces propriétaires donne aux entreprises le contrôle de leur propre feuille de route en matière d'IA.

Les compromis

Les puces sur mesure ne sont pas sans inconvénients. La conception d'un ASIC compétitif coûte des dizaines à des centaines de millions de dollars en ingénierie et en fabrication avant même qu'une seule puce ne soit expédiée. L'écosystème logiciel autour de la plateforme CUDA de Nvidia a deux décennies d'élan ; la réécriture ou le portage de code pour qu'il s'exécute sur une nouvelle architecture prend du temps et de l'expertise. Et une fois que la puce est fabriquée, son architecture est figée – contrairement aux logiciels, vous ne pouvez pas corriger la conception fondamentale d'une puce.

C'est pourquoi cette stratégie n'a de sens financier qu'à l'échelle hyperscale. Pour les entreprises qui exploitent des millions de serveurs, les coûts de conception initiaux sont éclipsés par les économies opérationnelles à long terme. Les petites organisations sont susceptibles de continuer à utiliser les GPU Nvidia ou à louer des instances cloud qui font abstraction de la couche matérielle.

La vue d'ensemble

L'essor des puces d'IA sur mesure signale une maturation de l'industrie de l'IA. Lorsqu'une technologie est nouvelle, les entreprises utilisent le matériel disponible. Au fur et à mesure que les charges de travail se standardisent et que les volumes augmentent, l'économie de la spécialisation prend le dessus – le même schéma qui a conduit les puces ARM dans tous les smartphones et les ASIC sur mesure dans le minage de Bitcoin. L'IA est maintenant à ce point d'inflexion. Nvidia ne va pas disparaître, mais l'ère de son monopole incontesté sur le calcul de l'IA touche à sa fin, une puce sur mesure à la fois.

Comment les géants de la tech conçoivent des puces d'IA sur mesure – et pourquoi

La course aux puces derrière l'essor de l'IA

Qu'est-ce qu'une puce d'IA sur mesure ?

Qui construit quoi

Pourquoi ne pas simplement acheter plus de GPU Nvidia ?

Les compromis

La vue d'ensemble

Articles connexes

Comment fonctionne la mémoire à large bande passante (HBM) : la puce dont l'IA ne peut se passer

Fonctionnement des services secrets américains : genèse et raison d'être

Comment les robots apprennent à battre les humains au sport

Comment fonctionne votre odorat : du nez au cerveau

Fonctionnement de la loi martiale : pourquoi les démocraties la craignent

Comment des tissus mous survivent à l'intérieur des fossiles de dinosaures

Comment fonctionne l'effet cocktail des pesticides – et pourquoi c'est important

Qui sont les Touaregs et pourquoi se rebellent-ils sans cesse ?

Ne manquez pas les nouveaux articles !