Cómo funciona la inferencia de la IA y por qué cuesta más que el entrenamiento

La parte de la IA de la que nadie habla

Cuando OpenAI entrena una nueva versión de GPT, el proceso se ejecuta durante semanas en miles de procesadores especializados, consumiendo enormes cantidades de electricidad y dinero. Esa fase de entrenamiento es la que acapara la mayoría de los titulares. Pero una vez que el modelo está en funcionamiento y millones de personas comienzan a chatear con él, comienza una fase diferente, y mucho más costosa: la inferencia.

La inferencia es el proceso por el cual un modelo de IA entrenado procesa nueva información y produce un resultado. Sucede cada vez que escribes un mensaje, le haces una pregunta a un asistente de voz o recibes una recomendación de productos en línea. Es, en resumen, la IA haciendo lo que fue construida para hacer.

Entrenamiento vs. Inferencia: Dos trabajos completamente diferentes

Para entender la inferencia, ayuda contrastarla con el entrenamiento. Durante el entrenamiento, una red neuronal aprende de vastos conjuntos de datos ajustando repetidamente miles de millones de parámetros internos, un proceso computacionalmente brutal llamado retropropagación. El modelo ve ejemplos, mide cuán equivocadas son sus conjeturas y empuja sus pesos en la dirección correcta, una y otra vez, hasta que se vuelve útil.

La inferencia se salta todo eso. Los pesos del modelo ahora están fijos. Cuando llegan nuevos datos, digamos, tu pregunta escrita, fluyen a través de la red en una sola pasada hacia adelante: capa por capa, el modelo usa esos pesos congelados para interpretar el contexto y generar una respuesta. No hay aprendizaje, ni cálculo de gradiente, ni actualización de peso. Solo una rápida transformación matemática de la entrada a la salida.

Según NVIDIA, el entrenamiento suele ser un evento único o poco frecuente, mientras que la inferencia es continua: se ejecuta sin parar en producción para servir a usuarios reales a escala.

Por qué la inferencia es más difícil de lo que parece

La inferencia suena más simple que el entrenamiento, y matemáticamente lo es. Pero ejecutar la inferencia a escala introduce un conjunto distinto de pesadillas de ingeniería.

Latencia: Los usuarios esperan respuestas en menos de un segundo. Cada milisegundo cuenta. Una canalización de inferencia lenta destruye la experiencia del usuario.
Rendimiento: Un servicio de IA popular puede manejar millones de solicitudes simultáneas. La infraestructura debe escalar horizontalmente sin colapsar.
Costo por consulta: Cada inferencia consume computación. Multiplica una consulta barata por mil millones de usuarios diarios y la factura se vuelve asombrosa.

Como explica Cloudflare, si bien una sola inferencia es mucho menos intensiva que una ejecución de entrenamiento, el costo acumulativo de servir un modelo ampliamente utilizado puede empequeñecer lo que costó construirlo en primer lugar.

La asombrosa economía

Los números lo confirman. Según un análisis informado por PYMNTS, aproximadamente el 80% de los presupuestos de computación de IA se destinan a la inferencia y solo el 20% al entrenamiento. Para GPT-4 de OpenAI, la factura de inferencia se ha proyectado en aproximadamente $2.3 mil millones anuales, alrededor de 15 veces su costo de entrenamiento. Como señala RCR Tech, el clúster de inferencia de ChatGPT es más de diez veces más grande que el clúster utilizado para entrenarlo.

La buena noticia es que las mejoras de eficiencia son rápidas. El costo de ejecutar un modelo de nivel GPT-3.5 se redujo más de 280 veces entre finales de 2022 y finales de 2024, impulsado por optimizaciones algorítmicas, una mejor utilización del hardware y chips de inferencia dedicados.

Chips dedicados e inferencia en el borde

El entrenamiento ha estado dominado durante mucho tiempo por las GPU de propósito general, porque la flexibilidad importa cuando las direcciones de investigación cambian rápidamente. La inferencia es diferente. Una vez que la arquitectura de un modelo es estable, los diseñadores de chips pueden construir ASIC (circuitos integrados de aplicación específica) que cablean los patrones computacionales del modelo directamente en silicio, eliminando circuitos innecesarios y maximizando el rendimiento por vatio.

Más allá de los centros de datos, la inferencia se está moviendo cada vez más al borde, ejecutándose directamente en teléfonos inteligentes, automóviles, cámaras y sensores industriales. La inferencia en el borde reduce la latencia, reduce los costos de ancho de banda y mantiene los datos confidenciales locales. Técnicas como la cuantización (reducir la precisión numérica de los pesos del modelo) y la poda (eliminar conexiones redundantes) reducen los modelos lo suficiente como para ejecutarlos en dispositivos de baja potencia sin una pérdida significativa de precisión.

Por qué es importante

Comprender la inferencia ayuda a desmitificar por qué la IA es tan costosa de implementar, por qué los chips especializados se están convirtiendo en un activo estratégico y por qué los avances en eficiencia importan tanto como la capacidad bruta del modelo. El entrenamiento produce inteligencia; la inferencia la entrega, miles de millones de veces al día, a un costo que la industria aún está aprendiendo a gestionar.

Cómo funciona la inferencia de la IA y por qué cuesta más que el entrenamiento

La parte de la IA de la que nadie habla

Entrenamiento vs. Inferencia: Dos trabajos completamente diferentes

Por qué la inferencia es más difícil de lo que parece

La asombrosa economía

Chips dedicados e inferencia en el borde

Por qué es importante

Artículos relacionados

Por qué la red eléctrica de Cuba sigue colapsando

Cómo funcionan los nanoláseres y por qué podrían reducir a la mitad el consumo energético de la computación

EE. UU. Inicia la Batalla por una Regulación Unificada de la IA

Por qué la red eléctrica de Cuba sigue colapsando

Cómo funcionan las Zonas de Bajas Emisiones y por qué las ciudades las adoptan

Cómo ha evolucionado el formato de la Copa Mundial de la FIFA desde 1930

Cómo funcionan los nanoláseres y por qué podrían reducir a la mitad el consumo energético de la computación

Sabalenka completa un inusual doblete primaveral en el Miami Open

¡No te pierdas los nuevos artículos!