Caso NVIDIA

"Neuralangelo"

Neuralangelo, un nuevo modelo de IA desarrollado por NVIDIA Research para la reconstrucción 3D utilizando redes neuronales. Este modelo es capaz de convertir clips de video 2D en estructuras 3D detalladas, generando réplicas virtuales realistas de edificios, esculturas y otros objetos del mundo real.

Neuralangelo puede traducir las texturas de materiales complejos, como tejas de techo, paneles de vidrio y mármol liso, de videos 2D a activos 3D. Esta capacidad supera significativamente a los métodos anteriores, y la alta fidelidad de sus reconstrucciones 3D facilita a los desarrolladores y profesionales creativos la creación rápida de objetos virtuales utilizables para sus proyectos utilizando imágenes capturadas por teléfonos inteligentes.

El modelo utiliza gráficos neurales instantáneos para capturar detalles más finos. A partir de un video 2D de un objeto o escena filmado desde varios ángulos, el modelo selecciona varios fotogramas que capturan diferentes puntos de vista. Una vez que se ha determinado la posición de la cámara de cada fotograma, la IA de Neuralangelo crea una representación 3D aproximada de la escena. Luego, el modelo optimiza el renderizado para agudizar los detalles.

Neuralangelo es uno de los casi 30 proyectos de NVIDIA Research que presentados en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones (CVPR), en Vancouver. Los documentos abarcan temas que incluyen la estimación de la pose, la reconstrucción 3D y la generación de video.

Uno de estos proyectos, DiffCollage, es un método de difusión que crea contenido a gran escala, incluyendo imágenes de orientación de paisajes largos, panoramas de 360 grados e imágenes de movimiento en bucle. Cuando se alimenta con un conjunto de datos de entrenamiento de imágenes con una relación de aspecto estándar, DiffCollage trata estas imágenes más pequeñas como secciones de una visual más grande, como piezas de un collage. Esto permite a los modelos de difusión generar contenido grande y coherente sin ser entrenados en imágenes de la misma escala.

Regresar al blog