2022년 12월 18일 일요일

2023년 3D 비전 기술 최신 동향 소개

3D 비전 기술은 산업 프로세스 개선을 지원하는 현대 자동화의 핵심 중 하나이다. 이 기술을 통해, 제품을 분류하고, 품질 관리를 위한 객체를 검사, 결함 확인 등 인간보다 더 빠르고 효율적으로 작업을 처리할 수 있다. 

2D 비전 기술의 주요 한계는 Z 차원에서 물체 모양을 인식하거나 거리를 측정할 수 없다는 것이다. 보다 복잡한 작업을 자동화할 수 있는 3D 정보의 필요성이 여기에 있다. 

트랜드
인공지능의 궁극적인 목표는 AGI(Artificial General Intelligence)를 달성하는 것이다. AGI는 인간과 마찬가지로 모든 지적 작업을 이해하고 수행할 수 있는 AI이다. 

‍Multimodal Learning은 AGI 방향을 향한 전략 중 하나로 간주된다. 이 모델은 여러 유형의 데이터를 처리할 수 있다. 다양한 소스(예. 이미지, 텍스트, 오디오, 센서 데이터)에서 정보를 처리하고, 캡처하면 AI 에이전트가 개념적 이해를 생성하고, 주변 환경을 전체적으로 인식할 수 있다.

관련 예로는 이미지와 캡션 사이의 유사성을 모델링하도록 훈련된 OpenAI의 CLIP(Contrastive Language-Image Pre-traning) 모델과 Meta의 FLAVA(Foundational Language And Vision Alignment Model), data2vec가 있다. 
CLIP 모델 개념도
FLAVA 모델로 생성된 이미지 예시(참고)
Facebook(Meta)의 data2vec 개념도(참고)

자기 지도 학습
SSL(Self-Supervised Learning)은 레이블(label)이 지정되지 않은 데이터에서 의사 레이블을 자동으로 생성하는 기술이다. 이 레이블은 '세상에 대한 일반적인 직관'을 모델에 가르치고 제공하는 것을 목표로 한다. 

GPT-3, BERT, BLOOM 과 같은 거대 NLP(자연어 처리) 모델은 훈련을 위해, 자기 지도 방식을 사용한다. 이를 통해, NLP 분야의 혁신을 일으키고 있다.

Diffusion 모델 기반 ‍Text to Image
2022년 가장 인기 있는 트렌드는 텍스트 to 이미지 Diffusion 모델일 것이다. DALL-E 2, Imagen 과 같은 모델은 뉴스 헤드라인을 장식하고 있다. 이러한 모델은 자연어 문장에서 자연스러운 원본 이미지를 생성할 수 있다.
시맨틱 텍스트 인코더. CLIP과 같은 이미지-텍스트 쌍에 대해 훈련된 텍스트 인코더는 임의의 입력 문장 의미를 캡처하는 역할을 한다. 고차원 임베딩 공간에 텍스트 시퀀스를 투사하여 이러한 특징을 캡처한다.

가우시안 노이즈로부터 이미지 생성 확산 모델. 확산 모델은 순수한 노이즈에서 새로운 이미지를 생성한다.


3D 장면 인식(3D Scene Perception) 및 객체 탐지
3D 장면 인식은 자율 주행뿐만 아니라 증강 현실 애플리케이션과 같이 현실 조건에서 동작하는 자율 로봇 시스템을 만들기 위한 조건이다. 

3D로 물체를 감지함으로써 크기, 거리 및 방향에 대한 정보를 얻다. 그런 다음 이 정보를 내비게이션 모델에서 활용하여, 장면에서 객체 움직임을 예측하고 로봇의 경로 계획을 지원한다.
3차원 객체 탐지 예시(objectron)
현재 가장 널리 사용되는 훈련 방법은 이미지 기반, 라이다 센서 데이터 기반, 혹은 두 데이터 소스를 퓨전(fusion)하여, 다중 모달 데이터 세트를 만드는 방법이 있다. 

아직, 3D 객체 감지는 초기 단계에 있다. 그러나 벤치마킹 데이터 세트(예. KITTI, objectron 데이터 세트 등) 확산 및 연구 노력으로 기술이 점차 개선되고 있다.

NeRF(Representing Scenes as Neural Radiance) 기반 3D 장면 표현
‍2020년 "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis" 논문이 출판되었다. 그 이후로 많은 연구 논문들은 3D 장면 뷰 합성을 위해 이 기술을 이용하였다. 이 기술은 컴퓨터 그래픽, 증강 현실 및 의료 응용 분야에서 매우 유망한 기술이다.

이 기술의 목표는 주어진 입력들에 대한 3차원 모델 표현을 합성하는 것이다. 주어진 입력은 카메라 위치 방향, 시야각(θ, φ), 공간 좌표 (x, y, z)이다. NeRF는 이 5D 공간을 단일 볼륨 밀도 σ, 종속, RGB 색상 c에 매핑한다. 

NeRF 기반 3차원 모델 재생성
마무리
이외에도, CAM, Grad CAM++, RISE, SHAP Gradient Explainer과 같이 인기있는 비전 딥러닝 모델이 있다. 관련 소프트웨어 도구 및 라이브러리에는 ELI5, interpretML, tootorch, tf-explain , shap이 포함된다. 


참고 - 역사의 시작
1960년대 컴퓨터 비전의 아버지인 MIT 전자공학 박사 래리 로버츠(Larry Lawrence Roberts)는 2D 사진에서 3D 기하학적 정보를 도출하는 방법과 컴퓨터가 단일 2D 이미지에서 3D 모델을 생성하는 방법을 연구했다. 그는 3차원 비전 연산에 필수적인 동차좌표계, 좌표행렬변환식, 좌표변환연산자 등을 수학적으로 증명하고, 관련 기술을 개발했다(Machine Perception of 3D Solids, 1963). 
래리 로버츠의 3차원 비전 기술 연구 일부(Computer Vision and AI Revolution)

참고로, 그는 1967년까지 MIT에서 근무하다, ARPA(아르파넷)에 채용되어 프로그램 관리자로 일했다. 그는 여기서 전자 메일, 패킷 통신 등 다양한 개념을 기술적으로 발전시킨다. 그는 1973년 ARPA를 떠났고, 여러 회사를 설립했다. 

이 기술은 3차원 컴퓨터 그래픽스 모델링 분야를 개척한 이반 서더랜드 박사의 스캐치패드 개발 등으로 이어진다. 


레퍼런스

댓글 없음:

댓글 쓰기

10 Construction Robots Finding Success, Making Job Sites Safer for the Humans

레퍼런스 10 Construction Robots Finding Success, Making Job Sites Safer for the Humans - BuiltWorlds