Infraestructura de IA

El entrenamiento y la inferencia de modelos IA requieren hardware acelerado. A continuación se compara los principales:

Tipo de hardware Características/uso Rendimiento relativo Costo/ejecución Accesibilidad educativa

GP

 

 

U (NVIDIA)

Procesador paralelo general. Optimizado para matrices (CUDAM, Tensor Cores). Soporta PyTorch, TF. H100/A100: ~1–3 PFLOPS (FP16) por unidad. Gran VRAM (80–141GB). Soporta batch grande y redes de atención extensas. Alto: $4–10/h (GPU en nube). Tarjetas PC ~$800–$3000 según modelo. Muy accesibles: Colab/Kaggle ofrecen GPUs gratis; muchas universidades usan GPUs gaming.
TPU (Google Cloud) ASIC tensor específico. Integración fuerte con TensorFlow/JAX. Diseñado para inferencia y entrenamiento de ML en la nube. No disponible fuera de Google Cloud. v6e: ~2 PFLOPS FP16 por chip. Masivo paralelismo (bajo costo por token). Pago por uso: ~$2.70/h por TPU v6e (nube Google). No hay versión local; uso sólo en servicios Google (Cloud TPU o Colab TPU gratuita). Limitado: Colab da pequeñas TPUs gratis; uso educativo real en nube (p.ej. Google Cloud for Education créditos).
NPU / Neural Engine Unidades IA en chips de móviles/PCs (ex. Apple, Huawei). Muy eficientes energéticamente. Se usan en visión, NLP en dispositivo. Ej.: Apple ANE v5 (A15): 15.8 TFLOPS (FP16). La primera ANE (A11) fue 0.6 TFLOPS; cada gen crece mucho. Integrado en dispositivos (smartphone/tablet). No se compra separado. Costo = el dispositivo (iPhone/AirPods/Mac con M-series). Alta: Los estudiantes llevan móviles con NPU. Google Coral (Edge TPU) ~$75 es asequible para demos de edge.
FPGA Hardware reconfigurable (p.ej. Xilinx). Puede diseñarse el circuito específico para IA. Rendimiento moderado. Menos paralelo que GPU en FP, pero baja latencia. Alto de entrada: tarjetas FPGA avanzadas ~miles USD. Bajo: Difícil de programar (Verilog) en cursos básicos; se usa más en investigación/industria. Existen kits educativos (Digilent) pero limitados.
ASIC (EdgeTPU) Chips específicos para IA (ej. Google Edge TPU, USB accelerator). Ultraeficientes para inferencia puntual. Edge TPU (Google): ~4 TOPS/W. Rendimiento limitado a modelos pequeños (p.ej. MobileNet, BERT pequeño). Moderado: Edge TPU USB ~$75. Otros ASIC (Graphcore IPU, Habana) solo en servidores costosos. Bueno: Edge TPUs para IoT / educación (Raspberry Pi + Coral). TPU/ASIC empresariales no disponibles en escuela.
Neuromórficos Chips de investigación (Intel Loihi, IBM TrueNorth). Imitan redes neuronales físicas spiking. Aún experimentales. Muy bajo consumo (ej. mil millones de OPS por segundo gastando milivatios). Experimental. No comercial generalizada. Muy bajo: solo en laboratorios especializados.

En resumen: las GPU son el estándar ampliamente usado (fáciles de acceder en colabs, PCs propias o nubes académicas). Las TPU ofrecen mayor eficiencia por coste en cargas de inferencia, pero sólo están en Google Cloud (aunque Colab da acceso limitado). Los NPUs son útiles para IA en móviles y dispositivos embebidos, mejorando privacidad y energía. FPGAs y ASICs sirven para casos muy particulares, no tan comunes en entornos educativos. Los aceleradores neuromórficos son aún investigación.

Además, como muestra la comparación de [49], GPUs (p.ej. NVIDIA H100/H200) tienen más VRAM y mejor soporte software (CUDA/PyTorch), mientras que TPUs se especializan en cargas TensorFlow con alta eficiencia. Por ejemplo, la H100 entrega ~150 tokens/s para LLaMA-70B con vLLM en AWS (mayor throughput), mientras que un TPU v6e puede dar ~120 tokens/s con TensorFlow pero con sólo 32 GB de memoria, necesitando 8 chips para LLaMA-70B.

Dónde ejecutar modelos: nube vs local vs edge


Revision #3
Created 2026-03-04 17:45:57 CET by Luis Hueso
Updated 2026-03-04 17:48:01 CET by Luis Hueso