Cambio de Cluster para Tesla

Análisis Comparativo de las GPUs NVIDIA H100 y A100 en la Estrategia de Computación de Alto Rendimiento de Tesla

Tesla activará un clúster de GPU NVIDIA H100 compuesto por 10,000 unidades, con el objetivo de acelerar el entrenamiento de su sistema de conducción autónoma (FSD, por sus siglas en inglés). Este desarrollo plantea una pregunta crucial: ¿Cómo se compara la nueva GPU H100 con la A100, que Tesla ha utilizado durante los últimos dos años? A continuación, ofrecemos un desglose detallado.

NVIDIA A100: La Base Establecida

Lanzada a finales de 2020, la GPU A100 marcó un hito en el rendimiento, ofreciendo una mejora de 20 veces en comparación con su predecesora. Diseñada para cargas de trabajo de alto rendimiento en computación e inteligencia artificial, sus especificaciones son las siguientes:
- 6,912 núcleos CUDA
- 432 núcleos tensores
- Opciones de 40 GB o 80 GB de memoria de gran ancho de banda (HBM2)

NVIDIA H100: El Nuevo Contendiente

Introducida a finales de 2022 con un precio aproximado de $40,000, la H100 es hasta 30 veces más rápida que la A100 en tareas generales y 9 veces más rápida en entrenamiento de IA. Sus características incluyen:
- 18,432 núcleos CUDA
- 640 núcleos tensores
- 80 multiprocesadores de transmisión (SM)
- Mayor consumo de energía en comparación con la A100
Con la H100, la computación de alto rendimiento es cinco veces más rápida que con la A100, lo que la convierte en una elección óptima para aplicaciones gráficas intensivas, como el entrenamiento de video para FSD.

Implicaciones para Tesla

Tesla está invirtiendo más de mil millones de dólares en la construcción de su propia supercomputadora, Dojo, que utilizará un chip de diseño personalizado. Este movimiento estratégico se debe a la incapacidad de NVIDIA para satisfacer la creciente demanda de GPUs de alto rendimiento. Según Elon Musk, si NVIDIA pudiera suministrar suficientes unidades, Tesla podría no necesitar Dojo.

Proyecciones y Riesgos

Tesla planea gastar más de $2 mil millones en 2023 y repetir la inversión en 2024 solo en computación de entrenamiento. La empresa está tomando medidas proactivas para eliminar cualquier cuello de botella informático en el entrenamiento de FSD. Sin embargo, la dependencia de un solo proveedor y la escalabilidad son riesgos potenciales que deben mitigarse.

Conclusión

La activación del clúster de GPU NVIDIA H100 y Dojo posicionará a Tesla en una liga propia en términos de capacidades de computación, ofreciendo una ventaja competitiva significativa. Es crucial para los interesados entender las implicaciones de esta transición tecnológica, ya que podría redefinir el panorama de la movilidad autónoma.
Regresar al blog