Cómo funciona la memoria de gran ancho de banda: el chip del que la IA no puede prescindir

Por qué la IA necesita un tipo de memoria diferente

Cada vez que un modelo de lenguaje grande genera una frase o un modelo de difusión de imágenes renderiza una imagen, miles de millones de parámetros deben ser transportados entre un procesador y su memoria. La memoria convencional no puede seguir el ritmo. El cuello de botella no es la potencia de cálculo, sino el ancho de banda de la memoria, la velocidad a la que los datos viajan hacia y desde el chip. La memoria de gran ancho de banda, o HBM, fue diseñada específicamente para romper ese cuello de botella, y se ha convertido en el componente más codiciado en la pila de hardware de IA.

Apilando chips como un rascacielos

La DRAM tradicional extiende los chips de memoria uno al lado del otro en una placa de circuito, conectados por trazas largas que limitan la velocidad y desperdician energía. La HBM adopta un enfoque radicalmente diferente: apila múltiples chips DRAM verticalmente, como pisos en un rascacielos, y los une en un solo paquete compacto.

Una pila HBM moderna puede contener ocho o incluso doce capas de DRAM. Cada capa está conectada a las que están arriba y abajo por miles de vías a través del silicio (TSV): orificios microscópicos rellenos de cobre perforados directamente a través del silicio. Estas TSV transportan datos verticalmente en lugar de horizontalmente, reduciendo la distancia que deben recorrer las señales y reduciendo drásticamente el consumo de energía.

Toda la pila se asienta sobre un interpositor de silicio, una oblea delgada que actúa como una autopista de alta velocidad que conecta la memoria a la GPU o al acelerador justo al lado. Debido a que la ruta de datos es de milímetros en lugar de centímetros de largo, HBM logra un ancho de banda que sería físicamente imposible con los diseños convencionales.

Números que importan

Cada pila HBM contiene múltiples canales independientes que operan en paralelo. La generación actual de caballo de batalla, HBM3E, ofrece aproximadamente 1,2 terabytes por segundo de ancho de banda por pila con hasta 36 GB de capacidad. La próxima generación, HBM4, duplica el ancho de la interfaz de 1.024 bits a 2.048 bits e impulsa el ancho de banda más allá de 2 TB/s por pila, suficiente para alimentar los modelos de IA más grandes durante el entrenamiento y la inferencia.

Para ponerlo en contexto, una sola pila HBM4 mueve datos aproximadamente 16 veces más rápido que el módulo DDR5 más rápido, al tiempo que consume significativamente menos energía por bit transferido. Las GPU Blackwell de NVIDIA emparejan múltiples pilas HBM3E para un ancho de banda combinado que supera los 8 TB/s por chip.

Por qué la fabricación es tan difícil

Construir HBM es una de las tareas más difíciles en la fabricación de semiconductores. Cada TSV debe grabarse, revestirse y rellenarse con cobre con una precisión submicrométrica en cada capa. A medida que las pilas crecen, las tolerancias de alineación se ajustan y el rendimiento disminuye. Una sola vía defectuosa en una pila de doce capas puede inutilizar toda la unidad.

Solo tres empresas en el mundo producen HBM en masa: SK Hynix, Samsung y Micron. SK Hynix domina actualmente con aproximadamente el 57 por ciento de los envíos globales de HBM, seguido por Samsung con alrededor del 35 por ciento y Micron con aproximadamente el 11 por ciento, según Counterpoint Research. Los tres han agotado toda su capacidad de producción hasta finales de año.

El muro de la memoria y el futuro de la IA

Los ingenieros llaman a la creciente brecha entre la velocidad del procesador y la velocidad de la memoria el "muro de la memoria". A medida que los modelos de IA escalan de miles de millones a billones de parámetros, el muro se hace más alto. HBM es la principal herramienta de la industria para escalarlo.

Bank of America estima que el mercado de HBM alcanzará los 54.600 millones de dólares en 2026, un salto del 58 por ciento con respecto al año anterior, con proyecciones que apuntan a 100.000 millones de dólares para 2028. La trayectoria de la tecnología refleja el propio crecimiento explosivo de la IA: cada nueva generación de aceleradores exige más pilas, más capas y más ancho de banda.

HBM no seguirá siendo la única solución para siempre (los investigadores están explorando alternativas como la computación en memoria y las interconexiones ópticas), pero en el futuro previsible, estas pequeñas torres de silicio apilado siguen siendo el cuello de botella que determina la rapidez con la que puede pensar la inteligencia artificial.

Cómo funciona la memoria de gran ancho de banda: el chip del que la IA no puede prescindir

Por qué la IA necesita un tipo de memoria diferente

Apilando chips como un rascacielos

Números que importan

Por qué la fabricación es tan difícil

El muro de la memoria y el futuro de la IA

Artículos relacionados

Cómo funciona la Sección 702 de la FISA y por qué divide al Congreso

Cómo funcionan los robots humanoides y por qué los quieren las fábricas

Cómo funciona el Servicio Secreto de EE. UU. y por qué existe

Cómo las biopsias líquidas detectan el cáncer antes de que aparezcan los síntomas

Cómo funciona la Sección 702 de la FISA y por qué divide al Congreso

Cómo funciona la ley marcial y por qué las democracias la temen

Cómo funciona la Sección 2 de la Ley de Derecho al Voto

¿Cómo funcionan las conversiones de organizaciones sin ánimo de lucro a empresas con fines de lucro?

¡No te pierdas los nuevos artículos!