Tecnología

Cómo funcionan los chips de inferencia de IA y por qué están en auge

Los chips de inferencia de IA son procesadores especializados diseñados para ejecutar modelos de IA entrenados de manera eficiente. A medida que las cargas de trabajo de inferencia ahora consumen dos tercios de todo el cómputo de IA, una nueva generación de silicio personalizado está remodelando la industria de los chips.

R
Redakcia
5 min de lectura
Compartir
Cómo funcionan los chips de inferencia de IA y por qué están en auge

Entrenamiento vs. Inferencia: Dos tareas muy diferentes

Cada interacción con un asistente de IA, cada foto etiquetada en un teléfono inteligente, cada alerta de fraude de un banco implica un paso llamado inferencia: el momento en que una red neuronal entrenada procesa nuevos datos y produce una respuesta. Entrenar un modelo de IA grande es un esfuerzo único, que dura meses y exige un cómputo paralelo masivo. La inferencia, por el contrario, se ejecuta continuamente, atendiendo cada consulta de cada usuario las 24 horas del día.

La distinción importa porque las dos tareas imponen exigencias muy diferentes al hardware. El entrenamiento maximiza el rendimiento bruto y admite un paralelismo enorme en miles de chips. La inferencia optimiza la latencia (la rapidez con la que llega cada respuesta), la eficiencia (energía por consulta) y el coste por respuesta. Un modelo puede requerir unos pocos cientos de chips para entrenar, pero su clúster de inferencia puede ser diez veces mayor: se dice que el despliegue de inferencia de ChatGPT empequeñece su configuración de entrenamiento.

Qué diferencia a un chip de inferencia

En el corazón de cada chip de IA reside la capacidad de acelerar la multiplicación de matrices, la operación matemática central en las redes neuronales. Las GPU de propósito general, diseñadas originalmente para renderizar gráficos, manejan esto bien porque sobresalen en las matemáticas paralelas. Pero conllevan una sobrecarga: conjuntos de instrucciones flexibles, controladores de memoria y características que las cargas de trabajo de inferencia nunca utilizan.

Los chips optimizados para la inferencia eliminan esa sobrecarga. Muchos son ASIC (circuitos integrados de aplicación específica): silicio personalizado cableado para un conjunto limitado de operaciones. Las unidades de procesamiento tensorial de Google, por ejemplo, contienen grandes multiplicadores de matriz sistólica (rejillas de 128×128) que canalizan las operaciones de tensores con extrema eficiencia. Inferentia de Amazon y la última TPU 8i de Google siguen la misma filosofía: hacer menos cosas, pero hacerlas más rápido y más barato.

La contrapartida es la flexibilidad. Una GPU es como una navaja suiza: maneja diversas cargas de trabajo. Un ASIC es un bisturí: excelente en su único trabajo, pero incapaz de adaptarse fácilmente. Para la inferencia a escala, esa especialización da sus frutos: la arquitectura TPU de Google ha demostrado un rendimiento por vatio entre 30 y 80 veces mejor que los procesadores de propósito general en operaciones de tensores bien estructuradas.

Por qué el mercado está cambiando hacia la inferencia

Las cargas de trabajo de inferencia ahora representan aproximadamente dos tercios de todo el cómputo de IA, frente a aproximadamente un tercio hace solo tres años, según las predicciones tecnológicas de Deloitte. La razón es una simple matemática: el entrenamiento ocurre una vez, pero la inferencia se escala con cada usuario, cada consulta, cada flujo de trabajo de IA agentic que planifica y ejecuta tareas de varios pasos.

Las implicaciones financieras son enormes. Se proyecta que el mercado de chips de inferencia de IA crecerá a una tasa de crecimiento anual compuesta del 32%, alcanzando potencialmente los 142.000 millones de dólares para 2033. Los envíos de ASIC personalizados de los proveedores de la nube están creciendo casi tres veces más rápido que los envíos de GPU, según los analistas de la industria.

El panorama competitivo

Nvidia domina los aceleradores de IA en general con aproximadamente el 80% de la cuota de mercado por ingresos, pero su dominio es más débil en la inferencia, donde posee un estimado del 60–75%. Esa brecha ha atraído una feroz competencia:

  • Google presentó recientemente su TPU de octava generación dividida en dos chips dedicados: uno para el entrenamiento (TPU 8t, construido con Broadcom) y otro para la inferencia (TPU 8i, diseñado con MediaTek), afirmando un rendimiento por dólar un 80% mejor que su generación anterior.
  • Amazon construye chips Inferentia y Trainium para su nube AWS, manteniendo bajos los costes de inferencia para sus propios clientes.
  • El Instinct MI300X de AMD, con 192 GB de memoria integrada de gran ancho de banda, ha ganado despliegues de inferencia en Microsoft, Meta y Oracle.
  • Se proyecta que el silicio personalizado de los hiperescaladores capture entre el 15 y el 25% del mercado, con envíos que crecen más del 44% anual.

Qué viene después

El auge de la IA agentic, sistemas autónomos que encadenan múltiples pasos de razonamiento, está intensificando aún más la demanda. Cada llamada de agente desencadena múltiples pases de inferencia, multiplicando las necesidades de cómputo. Los analistas de Morgan Stanley pronostican que las cargas de trabajo agentic por sí solas podrían agregar entre 32.000 y 60.000 millones de dólares en valor al mercado de chips de centros de datos para 2030.

A medida que la IA pasa de una era dominada por el entrenamiento a una dominada por la inferencia, los chips que ejecutan los modelos de IA del mundo se están volviendo tan estratégicamente importantes como los propios modelos. El trabajo silencioso y repetitivo de responder a miles de millones de consultas es ahora el mayor desafío de hardware en la tecnología.

Este artículo también está disponible en otros idiomas:

Artículos relacionados