La evolución del renderizado de escenas 3D: de NeRF, ADOP y Gaussian Splatting a TRIPS

Categorizado como 3D, AI/ML Etiquetado como , , , ,
Save and Share:

El ámbito de los gráficos 3D ha presenciado una evolución notable, particularmente en las técnicas utilizadas para renderizar escenas complejas. Este artículo profundiza en las complejidades de tres tecnologías clave que han moldeado este panorama: NeRF (Campos de radiancia neuronal), ADOP (Renderizado aproximado y diferenciable de puntos de un píxel), Gaussian Splatting y TRIPS (Trilinear Point Splatting for Real-Time Radiance Field Rendering). Cada una representa un salto adelante en nuestra búsqueda por crear mundos virtuales cada vez más realistas.

Campos de radiancia neuronal (NeRF)

NeRF surgió como un enfoque innovador, transformando una colección de imágenes 2D en una escena 3D navegable. Utiliza una red neuronal para aprender una representación 3D de alta resolución de una escena, permitiendo el renderizado de imágenes desde diferentes puntos de vista con un detalle y un fotorrealismo asombrosos. La tecnología ha encontrado aplicaciones en diversos campos, desde la realidad virtual hasta la navegación autónoma.

Instant NeRF: El siguiente paso

Un avance notable en la tecnología NeRF es Instant NeRF. Desarrollado por NVIDIA, acelera significativamente el proceso, entrenando con unas pocas docenas de fotos en segundos y renderizando la escena 3D en milisegundos. Esta capacidad de renderizado rápido abre nuevas posibilidades para aplicaciones en tiempo real y podría revolucionar la creación de contenido 3D.

ADOP: Renderizado aproximado y diferenciable de puntos de un píxel

ADOP, que significa Renderizado aproximado y diferenciable de puntos de un píxel, es un pipeline de renderizado neuronal diferenciable basado en puntos introducido por Darius Rückert, Linus Franke y Marc Stamminger. Este sistema está diseñado para tomar como entrada imágenes de cámara calibradas y una geometría proxy de la escena, típicamente una nube de puntos. La nube de puntos se rasteriza luego con vectores de características aprendidos como colores, y se emplea una red neuronal profunda para rellenar los huecos y sombrear cada píxel de salida.

El rasterizador en ADOP renderiza los puntos como splats de un píxel, lo que no solo es muy rápido sino que también permite el cálculo eficiente de gradientes con respecto a todos los parámetros de entrada relevantes. Esto lo hace particularmente adecuado para aplicaciones que requieren tasas de renderizado en tiempo real, incluso para modelos con más de 100 millones de puntos.

Además, ADOP incluye un modelo de cámara fotométrico basado en principios físicos y totalmente diferenciable, que abarca la exposición, el balance de blancos y una función de respuesta de la cámara. Siguiendo los principios del renderizado inverso, ADOP refina su entrada para minimizar inconsistencias y optimizar la calidad de su salida. Esto incluye la optimización de parámetros estructurales como la pose de la cámara, las distorsiones de la lente, las posiciones de los puntos y las características, así como parámetros fotométricos como la función de respuesta de la cámara, el viñeteado y la exposición y el balance de blancos por imagen.

Debido a su capacidad para manejar imágenes de entrada con exposición y balance de blancos variables de manera fluida, y su capacidad para generar salidas de alto rango dinámico, ADOP representa un avance significativo en el campo del renderizado neuronal. Si te interesan los gráficos por ordenador, especialmente las alternativas a Gaussian Splatting, el enfoque de ADOP hacia la rasterización de puntos y el refinamiento de escenas podría ser bastante relevante para tu trabajo o investigación.

Gaussian Splatting

Pasando a métodos tradicionales, Gaussian Splatting se erige como una técnica probada para el renderizado volumétrico y los gráficos basados en puntos. Proyecta datos 3D en un plano 2D utilizando distribuciones gaussianas, creando transiciones suaves y renderizando datos volumétricos como escáneres médicos con una claridad impresionante.

Desarrollos recientes

Avances recientes han introducido 3D Gaussian Splatting (3DGS), que acelera las velocidades de renderizado y proporciona una representación explícita de las escenas. Esto facilita la reconstrucción dinámica y las tareas de edición, superando los límites de lo que se puede lograr con los métodos tradicionales de splatting.

TRIPS: La frontera del renderizado en tiempo real

TRIPS representa la vanguardia, combinando las fortalezas de Gaussian Splatting y ADOP (Nubes de puntos de densidad adaptativa). Rasteriza los puntos en una pirámide de imágenes en espacio de pantalla, lo que permite el renderizado de puntos grandes con una sola escritura trilineal. A continuación, una red neuronal ligera reconstruye una imagen detallada y sin agujeros.

Por qué TRIPS destaca

  • Rendimiento en tiempo real: TRIPS mantiene una tasa de 60 fps en hardware estándar, lo que lo hace adecuado para aplicaciones en tiempo real.
  • Pipeline de renderizado diferenciable: La diferenciabilidad del pipeline significa que los tamaños y las posiciones de los puntos se pueden optimizar automáticamente, mejorando la calidad de la escena renderizada.
  • Calidad en escenarios desafiantes: TRIPS sobresale en el renderizado de geometrías complejas y paisajes expansivos, proporcionando una mejor estabilidad temporal y detalle que los métodos anteriores.

Pipeline de TRIPS

TRIPS renderiza una nube de puntos trilinealmente como splats de 2x2x2 en mapas de características multicapa, y los resultados se pasan a través de una pequeña red neuronal, que contiene solo una única convolución gated por capa. Este pipeline es completamente diferenciable, lo que permite la optimización de los descriptores de puntos (colores) y posiciones, así como los parámetros de la cámara, mediante descenso de gradiente.
Trilinear Point Splatting: (izquierda) Todos los puntos y sus respectivos tamaños se proyectan sobre la imagen objetivo. Basándose en este tamaño en el espacio de pantalla, cada punto se escribe en la capa correcta de la pirámide de imágenes utilizando la escritura trilineal (derecha). Los puntos grandes se escriben en capas de menor resolución y, por lo tanto, cubren más espacio en la imagen final.

Recursos de TRIPS

Conclusión

El viaje desde NeRF hasta TRIPS resume el rápido progreso en el renderizado de escenas 3D. A medida que avanzamos hacia métodos más eficientes y de alta fidelidad, el potencial para crear experiencias virtuales inmersivas se vuelve cada vez más tangible. Estas tecnologías no solo amplían los límites en gráficos, sino que también allanan el camino para innovaciones en diversas industrias, desde el entretenimiento hasta la planificación urbana.

Para aquellos que buscan profundizar en estas tecnologías, hay una gran cantidad de recursos disponibles, incluyendo reseñas exhaustivas y plataformas de código abierto que facilitan el desarrollo de proyectos NeRF. El futuro del renderizado 3D es brillante, y son tecnologías como NeRF, Gaussian Splatting y TRIPS las que iluminarán el camino a seguir.

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *