Facebook mejora la calidad de renderizado de realidad virtual a través del supermuestreo neuronal 4×4
La representación de gráficos 3D para las últimas pantallas de alta resolución nunca ha sido una tarea fácil, y el desafío para los auriculares VR con dos pantallas con altas tasas de actualización aumenta muchas veces, algo que la empresa matriz de Oculus, Facebook, solo hace sabe muy bien Hoy, los investigadores de Facebook introdujeron una nueva técnica para muestrear contenido 3D renderizado en tiempo real, que utiliza el aprendizaje automático para convertir instantáneamente imágenes de baja resolución y computacionalmente simples en una aproximación muy cercana a los materiales de referencia con una resolución mucho más alta.
La forma más fácil Para comprender la innovación de Facebook, uno tiene que imaginar que la Mona Lisa consta de solo 16 cuadrados de colores, p. B. una cuadrícula de 4 × 4. Una persona que mira la parrilla ve una imagen imperdonablemente irregular y en forma de caja que puede reconocer el famoso contorno de la Mona Lisa, pero una computadora capacitada podría identificar instantáneamente la parrilla y reemplazarla con la obra de arte original. Utilizando redes neuronales convolucionales de tres capas, los investigadores de Facebook han desarrollado una técnica que funciona no solo para imágenes planas, sino también para escenas renderizadas en 3D. Las "entradas fuertemente alias" se convierten en "resultados de alta fidelidad y tiempo estable en tiempo real" y se registra el color, se toman en cuenta los vectores de movimiento de profundidad y tiempo.
Desde un punto de vista computacional, la investigación sugiere que un entorno 3D renderizado de manera similar al juego original de Doom podría ampliarse a una experiencia de realidad virtual que se parece a Quake con entrenamiento avanzado. Esto no significa que un desarrollador pueda simplemente convertir un motor 3D primitivo en una rica experiencia de realidad virtual, sino que la tecnología podría ayudar a un dispositivo de realidad virtual con un rendimiento limitado, piense en Oculus Quest, renderizar menos píxeles internamente (ver "Entrada" en la foto de arriba) mientras se muestra una buena salida ("Nuestro" en la foto de arriba), utilizando el aprendizaje automático como un acceso directo para obtener resultados en calidad de referencia cercana.
Si bien los detalles del entrenamiento de la máquina son complicados, el resultado es que la red está entrenada con imágenes tomadas de 100 videos de una escena 3D en particular, como lo habrían visto los usuarios reales desde diferentes ángulos. Estas imágenes permiten que una escena de referencia de resolución completa se procese a 140,6 milisegundos a 1,600 x 900 píxeles, en lugar de renderizar a 26,4 milisegundos a 400 x 225 píxeles y luego muestrear 4 × 4 a 17,68 milisegundos, que es lo que corresponde a un total de 44.08 milisegundos, un ahorro de casi 3.2 veces en tiempo de renderizado para una aproximación muy precisa a la imagen original. De esta manera, un usuario de auriculares Quest VR se beneficiaría del escenario que se ha estudiado a fondo en computadoras mucho más potentes.
Los investigadores dicen que su sistema supera drásticamente la técnica de escalamiento temporal anti-aliasing del último Unreal Engine, que se muestra arriba como Unreal TAAU, al ofrecer una precisión mucho mayor en los detalles reconstruidos. Encuentran que el Supermuestreo de aprendizaje profundo (DLSS) de Nvidia es el más cercano a su solución, pero DLSS se basa en software y / o hardware patentado que puede no estar disponible en todas las plataformas. Facebook sugiere que su solución no requiere ningún hardware o software especial y puede integrarse fácilmente en motores 3D modernos utilizando sus entradas existentes para proporcionar supermuestreo 4×4 en un momento en que las soluciones comunes son como máximo 2×2 – Utilice el muestreo superior.
Tan positivo como es el nuevo sistema, no sorprende que no sea perfecto. A pesar de todo el conocimiento previo y la suavidad de las imágenes resultantes que es estable en el tiempo, se pueden perder algunos detalles finos durante el proceso de reproducción, por lo que el texto en una nota adhesiva (como se muestra arriba) puede no ser legible si no está disponible. t debidamente marcado en los últimos cuadros de renderizado de baja resolución. También hay preguntas sobre los costos de implementación de las "aplicaciones de visualización de alta definición", aunque se espera que más rendimiento, mejores optimizaciones e ingeniería profesional mejoren el rendimiento del sistema.
El trabajo de investigación subyacente se publicó hoy como Supersampling "neuronal" para renderizado en tiempo real ", atribuido a Lei Xiao, Salah Nouri, Matt Chapman, Alexander Fix, Douglas Lanman y Anton Kaplanyan de Facebook Reality Labs. Se presentará en Siggraph 2020 a mediados de julio.