엔비디아, 2D 사진을 3D으로 빠르게 바꾸는 뉴럴 렌더링 모델 공개

엔비디아가 2D 사진을 3D 장면으로 빠르게 전환하는 뉴럴 렌더링 모델인 ‘인스턴트(instant) NeRF’를 공개했다.

NeRF(Neural radiance Fields, 뉴럴 래디언스 필드)는 신경 네트워크를 사용해 입력된 2D 이미지 컬렉션을 기반으로 사실적인 3D 장면을 표현하고 렌더링한다. NeRF에 공급할 데이터는 레드 카펫 사진작가가 모든 각도에서 유명인의 의상을 캡처하는 것과 같은 방식으로 수집된다. 신경 네트워크에는 장면 주변의 여러 위치에서 촬영한 수십 개의 이미지와 각각의 카메라 위치가 필요하기 때문이다.

source: NVIDIA Developer 유튜브 캡처

NeRF는 공백을 채우고 3D 공간의 모든 지점에서 전 방향으로 방출되는 빛의 색상을 예측해 장면을 재구성하도록 작은 신경망을 훈련한다. 이 기술은 일부 이미지에서 보이는 물체가 다른 이미지에서 기둥과 같은 장애물에 의해 차단되는 경우에도 해결책으로 사용할 수 있다.

인버스 렌더링(inverse rendering)으로 알려진 이 과정은 AI를 사용하여 실제 세계에서 빛이 어떻게 작용하는지 대략적으로 파악해, 연구자가 다양한 각도에서 촬영한 여러 장의 2D 이미지로 3D 장면을 재구성한다. 엔비디아 리서치 팀은 이 작업을 거의 즉시 수행하는 접근 방식을 개발했으며, 이는 초고속 뉴럴 네트워크 트레이닝과 고속 렌더링을 결합한 최초의 모델 중 하나가 됐다. 엔비디아는 이 방식을 NeRF에 적용했다. 그 결과물인 인스턴트 NeRF는 수십 장의 사진과 더불어 촬영한 카메라 각도의 데이터를 몇 초 만에 학습하고, 그 결과 생성된 3D 장면을 수십 밀리초 안에 렌더링할 수 있다.

부분적인 시각에 근거해 사물의 깊이와 외관을 파악하는 것은 인간에게는 자연스러운 작업이지만 AI에게는 어려운 일이다. 기존 방법으로 3D 장면을 생성하려면 시각화의 복잡성 및 해상도에 따라 몇 시간 이상 소요되지만, AI를 도입하면 작업의 속도가 빨라진다. 초기 NeRF 모델은 아티팩트 없이 선명한 장면을 몇 분 안에 표현했지만, 훈련에는 수 시간이 걸렸다.

반면 인스턴트 NeRF는 렌더링 시간을 몇 배나 단축하며, 엔비디아 GPU에서 효율적으로 실행되도록 최적화된 멀티-해상도 해시 그리드 인코딩(multi-resolution hash grid encoding)이라 불리는 엔비디아의 기술을 사용한다. 새로운 입력 부호화 방법을 사용하면 연구자들은 빠르게 작동하는 작은 신경망을 통해 고품질의 결과를 얻을 수 있다.

이 모델은 엔비디아 CUDA 툴킷(CUDA Toolkit) 및 초소형 CUDA 뉴럴 네트워크(Tiny CUDA Neural Networks) 라이브러리를 사용해 개발됐다. 경량 뉴럴 네트워크이므로 엔비디아 텐서 코어(Tensor Core)를 탑재한 카드에서 빠르게 동작하는 엔비디아 GPU 1개만으로 훈련 및 실행할 수 있다.

이 기술은 로봇과 자율주행 자동차가 2D 이미지와 동영상을 캡처하면서 실제 물체의 크기와 모양을 이해하도록 훈련하는데 사용할 수 있다. 또한 건축 및 엔터테인먼트 분야에서도 제작자가 수정하고 구축할 수 있는 실제 환경의 디지털 표현을 신속하게 생성한다. 가상세계의 아바타 또는 장면을 만들거나 화상회의 참가자와 환경을 3D로 캡처하고, 3D 디지털 맵의 장면을 재구성하는 데에도 사용할 수 있다.

엔비디아의 데이비드 룹커(David Luebke) 그래픽 연구 부사장은 “다각형 메시(polygonal mesh)와 같은 기존 3D 표현이 벡터 이미지와 유사하다면, NeRF는 비트맵 이미지와 같다. 물체나 장면에서 빛이 방사(radiate)되는 방식을 조밀하게 포착한다. 그런 의미에서 인스턴트 NeRF는 2D 사진에서 디지털 카메라와 JPEG 압축이 3D 캡처 및 공유의 속도, 용이성 및 도달 범위를 크게 향상시킨 것처럼 3D에 중요한 기술”이라고 설명했다.


Posted

in

by

Comments

댓글 남기기

워드프레스닷컴으로 이처럼 사이트 디자인
시작하기