2021년 9월 21일 화요일

RNN 기반 컴퓨터 비전

 이 글은 RNN 기반 컴퓨터 비전에 대한 간략한 소개이다. 


딥 러닝은 일반적으로 전통적인 신경 네트워크, CNN(Convolutional Neural Networks) 및 RNN (Recurrent Neural Networks)의 세 가지 큰 영역으로 나뉜다.

첫 번째는 빅 데이터에서 작동 할 수있는 일반적인 구조이지만 CNN은 이미지에서 작동 할 수 있는 신경망이고 RNN은 텍스트 또는 소리와 같은 시퀀스에서 작동 할 수 있는 신경망이다.
많은 사람들이 CNN을 통한 컴퓨터 비전 또는 RNN을 통한 자연어 처리를 사용한다.

이미지 분류는 CNN을 사용하여 수행 할 수 있다. CNN의 두 번째로 많이 사용되는 응용 프로그램은 객체 감지이다. 이 결과 경계 상자를 나타내는 4개 좌표 목록과 클래스 확률 점수를 출력한다.

CNN은 이미지 각 픽셀을 분류하고 객체(도로, 보행자, 자동차 등)를 추론할 수 있는 신경망이 생긴다. 세그먼트 이미지를 출력하기 위해 신경망은 두 가지 방식, 즉 인코더와 이미지를 재생성하는 디코더로 작동한다. 전치 된 컨볼 루션과 같은 기법을 사용하여 이미지를 재현한다.

Recurrent Neural Network는 시퀀스와 시간을 이해할 수 있도록 모델링될 수 있다.

비디오 시퀀스 작업을 하는 경우 비디오를 이미지로 분할하고 각 이미지를 독립적으로 처리한다. Recurrent Neural Network에서 시퀀스는 일련의 시간 관련 데이터로 활용된다.

CNN으로 일련의 단어를 가져올 수 있으면, 신경망에 공급하여 클래스를 출력 할 수 있다. 예를 들어 영화 리뷰를 분석하고 텍스트를 positive 또는 negative 로 분류 할 수 있다. 이는 Many-To-One 예측로 불린다.단어의 의미를 이해하고 처음 몇 단어에서 문장의 나머지 부분을 예측하려면 다 대다 예측이 가능해야 한다. 많은 단어를 입력으로 간주하고 각 단어 다음에 모든 선행 단어를 고려하여 다음 단어를 예측한다. 
RNN과 CNN을 함께 사용하는 것이 가능하며 실제로는 컴퓨터 비전을 가장 많이 사용하는 것이 될 수 있다. 액션 분류, 영화 생성에 이미 사용되고 있는 기술이다. 

댓글 없음:

댓글 쓰기

2024년 하반기 스마트 건설과 생성AI 기술 동향

이 글은 2024년 하반기 스마트 건설과 생성AI 기술 동향에 대한 내용을 정리한다. 머리말 건설 분야에서도 제조업과 마찬가지로 생성 AI의 시대가 도래하고 있다. 2023년 글로벌 건설 시장 내 인공지능(AI) 규모는 9억 3,356만 달러에서 20...