객체 탐지

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
3. 방식
- 3.1. 기계 학습 접근 방식
- 3.2. 딥 러닝 접근 방식
4. 활용 분야
5. 벤치마크 및 데이터셋
- 5.1. 벤치마크
- 5.2. 데이터셋
6. 과제
참조

1. 개요

객체 탐지는 이미지 내에서 특정 객체의 위치와 종류를 파악하는 컴퓨터 비전 기술이다. 1970년대부터 연구가 시작되어 템플릿 매칭과 기하학적 접근 방식을 사용했으며, 2012년 딥러닝 기술의 발전과 함께 딥러닝 기반의 객체 탐지 기술이 주류를 이루게 되었다. 객체 탐지 방식은 크게 기계 학습 기반과 딥 러닝 기반으로 나뉘며, Viola-Jones, SIFT, HOG와 같은 기법과 R-CNN, YOLO, SSD, EfficientDet 등이 널리 사용된다. 객체 탐지는 이미지 주석, 행동 인식, 얼굴 인식, 자율 주행 등 다양한 분야에 활용되며, 회전, 가림, 이미지 열화, 클래스 불균형과 같은 과제를 해결하기 위한 연구가 진행되고 있다. 객체 탐지 기술의 성능 평가는 mAP를 사용하며, Pascal VOC, MS COCO, OpenImage, KITTI와 같은 다양한 벤치마크 데이터셋과 데이터셋이 활용된다.

더 읽어볼만한 페이지

감시 - 열화상 카메라
열화상 카메라는 적외선을 감지해 물체의 온도 분포를 영상으로 보여주는 장치로, 냉각 장치 사용 여부에 따라 양자형과 비냉각형으로 나뉘며 군사 목적에서 시작하여 현재는 다양한 분야에서 활용되고 있고 기술 발전과 가격 하락으로 활용 범위가 확대될 전망이다.
감시 - 자동 번호판 인식
자동 번호판 인식은 이미지 처리 및 광학 문자 인식 기술을 활용하여 자동차 번호판의 문자와 숫자를 자동으로 인식하는 기술로, 교통 단속, 보안, 전자 요금 징수 등 다양한 분야에서 활용되지만 개인정보 침해, 시스템 오류, 기술 오용 등의 문제점도 존재하여 기술적, 제도적 개선이 요구된다.

객체 탐지
개요
객체 감지 파이프라인의 블록 다이어그램.
분야	컴퓨터 비전, 인공지능
하위 분야	이미지 처리
관련 주제	이미지 분할, 특징 감지, 기계 학습
세부 정보
설명	디지털 이미지 및 비디오에서 객체를 감지하는 컴퓨터 기술
기술 유형	컴퓨터 비전, 이미지 처리
입력	디지털 이미지, 비디오
출력	감지된 객체의 클래스 및 위치
방법	기계 학습, 딥 러닝, 이미지 처리
응용 분야
활용 분야	자율 주행 로봇 공학 보안 시스템 의료 영상 소매 분석
주요 접근 방식
고전적인 방법	Viola-Jones HOG SVM
딥 러닝 기반 방법	R-CNN 계열 (예: Fast R-CNN, Faster R-CNN) YOLO 계열 SSD RetinaNet Transformer 기반 방법 (예: DETR)
성능 지표
평가 지표	정밀도 재현율 F1 점수 평균 정밀도(AP) 평균 정밀도(mAP) IoU (교차점 오버 유니온)

2. 역사

객체 탐지는 동영상에서 특정 속성을 가진 객체를 감지하고, 그 위치와 범위를 추론하는 기술이다^[26]。 객체의 위치는 주로 Minimum bounding box|바운딩 박스|바운딩 박스^영어라고 불리는 객체를 둘러싸는 최소 직사각형으로 표시된다^[27]。 객체 탐지는 이미지 이해, 컴퓨터 비전 분야의 기초 기술이며, 이미지 분할, 장면 이해, 객체 추적, 이미지 캡션 부여 등 더 복잡한 이미지 인식 작업을 위한 기반 기술이다^[26]。 또한 보안, 자율주행, 이미지 검색, 로봇 비전 등 현실 세계의 다양한 분야에 응용되고 있다^[25]^[26]。

객체 탐지는 이미지 내 객체의 클래스를 식별하는 클래스 분류 작업과 유사하지만, 객체의 위치까지 인식해야 하기 때문에 탐지기를 만드는 것이 더 어렵다. 또한, 인식 대상 객체가 배경에 비해 적은 것도 객체 탐지를 어렵게 만드는 요인 중 하나이다.

동영상에서 서로 다른 객체를 인식하려면 의미 있고 강건한 Feature_(computer_vision)|특징 표현|특징 표현^영어을 추출해야 한다^[25]。 예를 들어, 자동차 이미지 비교 시 세단, 왜건, 트럭과 같은 외형적 차이가 있더라도 자동차로 감지해야 한다. 실제 세계에는 같은 클래스의 객체라도 다양한 모양이 존재하고, 모양이 변할 수도 있지만, 이러한 변화에도 같은 클래스로 감지할 수 있는 견고한 특징 추출 방법이 필요하다.

2004년 스케일 불변 특징 추출 방법인 Scale-invariant feature transform|SIFT|SIFT^영어^[30]가 발표된 후, 더욱 견고한 특징량을 설계하여 객체 탐지에 응용하는 연구가 활발히 진행되었다^[26]。 2012년 심층 신경망(DNN)을 사용한 방법이 이미지 분류에서 기존 기록을 크게 뛰어넘는 정밀도를 기록하면서^[31], 객체 탐지에도 DNN이 활용되기 시작했고^[48], 2019년경에도 DNN을 사용한 객체 탐지 방법이 여전히 활발하게 연구되고 있다^[26]。

2. 1. 초기

1970년대에는 이미 물체 탐지를 다룬 연구가 존재했다.^[32]。초기 연구에서는 템플릿 매칭이나 이미지를 분할하여 개별적으로 탐지 알고리즘을 사용하는 간단한 기법이 사용되었으며, 얼굴 탐지 등이 대상이었다.^[26]。1990년경까지는 기하학적 접근 방식이 주류였지만, 이후에는 서포트 벡터 머신(SVM)이나 뉴럴 네트워크 등의 통계적 기법 연구가 활발해졌다.^[26]。

2. 2. SIFT 이후

동영상에서 서로 다른 물체를 인식하기 위해서는 의미 있고 견고한 특징 표현을 얻는 것이 중요하다. 회전, 조명 조건의 차이, 장애물의 유무와 같은 외형 변화에도 불변하는 국소적인 특징 표현을 학습하는 기법에 대한 연구가 진행되고 있다.^[26] 그중에서도 2004년에 스케일 불변 특징 추출 기법인 SIFT^[30]가 성공을 거두면서, 연구자들은 다양한 조건에 불변하는 특징 추출 기법을 제안하게 되었다.^[26] 2001년에 제안된 Haar-like feature|하르-라이크 특징^영어 기반의 Viola–Jones object detection framework|비올라-존스 객체 검출 프레임워크^영어^[33]는 주로 얼굴 검출에 응용하는 것을 목적으로 한 기법으로, 미리 생성한 약식별기를 여러 개 조합하여 식별기끼리 서로의 약점을 보완하여 전체적으로 하나의 식별기를 이룬다. 하지만 이러한 기법처럼 연구자가 직접 특징 추출 기법을 설계하는 것에 대해서는, 매우 다양한 외관을 가진 과제에 완전하게 대처할 수 있는 특징량을 얻는 것은 어렵고^[25], 최적이라고 보장할 수도 없다는 견해가 있다.

2. 3. 딥러닝 혁신

2012년 심층 신경망(DNN)을 사용한 알렉스넷(AlexNet)이 이미지 분류 대회 ILSVRC2012에서 기존 이미지 인식 시스템을 크게 뛰어넘는 정밀도를 기록하면서, 객체 탐지에도 딥러닝이 활용되기 시작했다.^[31]

2014년 R-CNN이 발표되었다. R-CNN은 기존의 객체 후보 영역 제안(region proposal) 기법을 적용한 후, 각 후보 영역에 합성곱 신경망(CNN)을 사용하여 객체의 존재 여부와 바운딩 박스(Bounding box) 좌표를 학습하는 방식이었다.^[48] 그러나 R-CNN은 객체 후보 영역 제안에 CNN을 사용하지 않았고, 클래스 분류에 SVM을 사용하는 등 2단계 구조로 인해 추론 속도가 느렸다.^[26]

R-CNN 발표 이후, 그 단점을 개선한 탐지 시스템들이 발표되었다. 2015년 Fast R-CNN^[49]은 이미지 전체에 대해 CNN을 사용하여 특징 추출을 수행하고, 후보 영역의 정보를 조합하여 R-CNN의 단점을 해소했다.^[25] 같은 해 제안된 Faster R-CNN^[50]은 객체 후보 영역 제안 부분을 신경망으로 대체(Region Proposal Network, RPN)하여 시스템 전체를 신경망으로 학습할 수 있게 되었고, 속도도 크게 향상되었다.^[25] 이후, 객체 분할(segmentation)을 위한 Mask R-CNN^[36] 등 R-CNN에서 이어진 2단계 탐지 시스템 연구가 활발하게 진행되었다.^[25]

한편, 2단계 탐지 시스템은 계산 자원을 많이 필요로 하여 휴대 단말이나 웨어러블 기기와 같은 환경에서는 응용이 어렵다는 과제가 있었다.^[26] 이를 해결하기 위해 영역 제안 없이 입력부터 클래스 분류, 바운딩 박스 좌표 추정까지 한 번에(end-to-end) 수행하는 1단계 탐지 시스템 연구도 진행되었다.^[26]^[25]

2016년 YOLO^[53]는 이미지를 그리드로 나누어 각 그리드마다 객체 존재 확률과 분류 클래스를 예측한다.^[25] YOLO는 빠른 처리 속도를 보였지만, 위치 정확성이 낮고, 하나의 그리드 내에 여러 객체가 있을 때 탐지력이 낮았다.^[26] 같은 해 발표된 Single Shot MultiBox Detector (SSD)^[57]는 Faster R-CNN의 RPN 아이디어를 도입하여 처리 속도를 더욱 향상시키고, Faster R-CNN과 동등한 정밀도를 달성했다.^[26] 2019년 EfficientDet^[40] 등 1단계 시스템이면서도 조건에 따라 Mask R-CNN의 정밀도를 뛰어넘는 시스템도 등장했다.^[40]

3. 방식

객체 탐지 방식은 크게 기계 학습 기반 접근과 딥 러닝 기반 접근으로 나뉜다. 기계 학습 접근은 특징(feature)을 정의한 후 서포트 벡터 머신(SVM) 등의 기법으로 분류한다. 반면 딥 러닝 기법은 특징을 정의하지 않고도 객체 탐지가 가능하며, 합성곱 신경망(CNN) 기반이 일반적이다.^[90]

척도 불변 특징 변환(SIFT)^[30] 발표(2004년) 이후, 객체 탐지에 응용하는 연구가 활발해졌다.^[26] 심층 신경망(DNN)이 이미지 분류에서 높은 정밀도를 기록하면서(2012년),^[31] 객체 탐지에도 DNN이 활용되기 시작했다.^[48] 2019년경에도 DNN을 사용한 객체 탐지 방법이 활발히 연구되고 있다.^[26]

R-CNN의 단점을 개선한 탐지 시스템도 발표되었다. SPPNet^[35]은 고정 크기 이미지만 입력받는 R-CNN의 단점을 해소했고(2014년),^[26] Fast R-CNN^[49]은 후보 영역마다 CNN을 적용해야 하는 R-CNN의 단점을 개선했다(2015년).^[25] 같은 해 Faster R-CNN^[50]은 물체 후보 영역 제안 부분을 신경망으로 대체하여 (Region Proposal Network, RPN) 전체 시스템을 신경망으로 학습 가능하게 했고, 속도도 크게 높였다.^[25] Mask R-CNN^[36]은 인스턴스 세분화를 가능하게 하는 등, R-CNN 기반 2단계 탐지 시스템 연구가 활발하다.^[25]

2단계 탐지 시스템은 계산 자원 소모가 커서, 휴대 단말 등 제한된 환경에 적용하기 어렵다는 과제가 있다.^[26] 이를 해결하기 위해 1단계 탐지 시스템 연구도 진행 중이다.^[26]^[25] OverFeat^[37]는 빠른 처리 속도를 달성했지만(2013년), 정밀도는 R-CNN에 미치지 못했다. OverFeat의 특징은 YOLO^[53]와 SSD^[57]에 계승되었다.^[26] YOLO는 이미지를 그리드로 나누어 객체 존재 확률과 분류 클래스를 예측한다(2016년).^[25] YOLO는 처리 속도가 45fps로 매우 빠르지만, 위치 정확성은 Faster R-CNN보다 낮다.^[26] 같은 해 SSD는 RPN의 아이디어를 도입하여 YOLO보다 속도와 정밀도를 모두 향상시켰다.^[26] EfficientDet^[40] 등 1단계 방식이면서도 2단계 방식의 정밀도를 넘어서는 시스템도 등장하고 있다(2019년).

3. 1. 기계 학습 접근 방식

객체 탐지를 위한 기계 학습 접근 방식은 크게 전통적인 기계 학습 방식과 딥 러닝 방식으로 나뉜다.

전통적인 기계 학습 방식에서는 먼저 특징(feature)을 정의하고, 이를 기반으로 서포트 벡터 머신(SVM) 등의 기법을 사용하여 객체를 분류한다. 주요 기법은 다음과 같다.

하르 특징(Haar features) 기반 비올라–존스 객체탐지 프레임워크
척도 불변 특징 변환(Scale-invariant feature transform, SIFT)
경사지향 히스토그램(Histogram of oriented gradients, HOG) 기능^[90]

반면, 딥 러닝 기법은 특징을 구체적으로 정의하지 않고도 객체 탐지를 수행할 수 있으며, 합성곱 신경망(CNN)을 기반으로 하는 것이 일반적이다. 주요 기법은 다음과 같다.

Region Proposals (R-CNN,^[91] Fast R-CNN,^[92] Faster R-CNN,^[93], cascade R-CNN^[94])
Single Shot MultiBox Detector (SSD)^[95]
You Only Look Once (YOLO)^[96]^[97]^[98]^[99]
Single-Shot Refinement Neural Network for Object Detection (RefineDet)^[100]
Retina-Net^[101]^[102]
Deformable convolutional networks^[103]^[104]

3. 2. 딥 러닝 접근 방식

딥 러닝 접근 방식은 특징을 명시적으로 정의하지 않고, 데이터로부터 특징을 학습하여 객체를 탐지한다. 주요 기법은 다음과 같다:^[90]

기법	설명
영역 기반 컨볼루션 신경망(R-CNN,^[91] Fast R-CNN,^[92] Faster R-CNN,^[93] cascade R-CNN^[94])	이미지 내에서 객체가 있을 만한 영역을 제안하고, 각 영역에 대해 합성곱 신경망(CNN)을 사용하여 객체 여부를 판정한다.
Single Shot MultiBox Detector (SSD)^[95]	이미지를 여러 개의 그리드로 나누고, 각 그리드마다 객체의 존재 여부와 종류를 예측한다.
You Only Look Once (YOLO)^[96]^[97]^[98]^[99]	SSD와 유사하게 이미지를 그리드로 나누어 객체를 탐지하며, 빠른 속도가 장점이다.
Single-Shot Refinement Neural Network for Object Detection (RefineDet)^[100]	1단계 방식이지만, 객체의 유무 및 대략적인 위치를 먼저 검출하고, 이후에 더 정확한 위치와 종류를 예측하는 2단계 방식을 결합하여 정확도를 높였다.
Retina-Net^[101]^[102]	객체 탐지 시 배경이 더 많이 나타나는 문제를 해결하기 위해, 탐지가 어려운 경우를 더 중요하게 학습하는 Focal loss라는 손실 함수를 도입했다.
Deformable convolutional networks^[103]^[104]	객체의 형태를 더 잘 인식하기 위해, 필터를 변형 가능한 네트워크를 설계하여 객체 탐지와 함께 필터의 변형 정도도 학습한다.

4. 활용 분야

객체 탐지 기술은 컴퓨터 비전 작업에 널리 사용되는데, 이미지 주석,^[2] 차량 계수,^[3] 행동 인식,^[4] 얼굴 감지, 얼굴 인식, 비디오 객체 공동 분할 등이 그 예시이다.^[2] 또한, 객체 추적에도 사용되는데, 예를 들어 축구 경기에서 공을 추적하거나, 크리켓 배트의 움직임을 추적하거나, 비디오에서 사람을 추적하는 데 사용된다.^[4]

보안, 자율 주행, 이미지 검색, 로봇 비전 등 광범위한 분야에서 활용되고 있다.^[25]^[26] 예를 들어, 자율 주행 분야에서는 교차 도메인 객체 감지가 적용되어, 레이블을 수동으로 생성할 필요 없이 대량의 비디오 게임 장면에서 모델을 훈련할 수 있다.^[10]

5. 벤치마크 및 데이터셋

객체 탐지 모델의 성능을 평가하고 비교하기 위한 벤치마크와 학습 및 평가에 사용되는 데이터셋에 대해 설명한다.

객체 탐지의 성능 평가는 주로 평균 정밀도(mAP)를 사용한다. mAP는 객체의 위치와 종류를 얼마나 정확하게 예측하는지를 종합적으로 나타내는 지표이다.

정밀도(Precision): 모델이 객체라고 예측한 것 중 실제로 객체가 맞는 비율
재현율(Recall): 실제 객체 중 모델이 객체라고 정확하게 예측한 비율

일반적으로 정밀도와 재현율은 서로 상충되는 경향을 보인다.^[80]
교차 면적 오버 유니온(IoU)은 예측된 객체의 위치(바운딩 박스)와 실제 객체의 위치가 얼마나 겹치는지를 나타내는 지표이다.^[26] IoU는 객체의 위치를 얼마나 정확하게 예측하는지를 평가하는 데 사용된다.

객체 탐지 연구에는 다양한 데이터셋이 사용된다.

기계 학습에서는 모델 학습과 평가를 위해 Training,_validation,_and_test_sets|데이터세트^영어를 사용한다. 객체 탐지용 데이터셋은 이미지 내 객체의 종류와 위치 정보를 포함해야 하므로, 이미지 분류용 데이터셋보다 라벨링(데이터에 정답 정보를 추가하는 작업)이 어렵다.^[65] 또한, 객체의 경계를 정확하게 표시할수록 좋기 때문에 품질과 비용의 균형을 맞추는 것이 중요하다.^[65]

일반 물체 탐지 데이터셋
이름	발표 연도	이미지 수	클래스 수^[67]	특징
Pascal VOC^[68]	2005	11,540장	20개	초기 객체 탐지 연구에 많이 사용되었으나, 비교적 작은 규모이다.^[26]
ImageNet^[69]	2009	1,400만 장 이상	21,841개	대규모 데이터셋으로, ImageNet Large Scale Visual Recognition Challenge 대회에서 벤치마크로 사용된다.^[26]
MS COCO^[70]	2014	약 328,000장	91개	작은 물체나 가려진(오클루전) 객체가 많은 이미지를 포함하여, 현재 객체 탐지 벤치마크의 표준으로 사용된다.^[26]
OpenImage^[71]	2017	약 900만 장	600개	현재 가장 큰 규모의 객체 탐지 데이터셋이다.^[26] 반자동 라벨링과 사람의 검수를 통해 구축되었다.^[71]

얼굴 인식은 생체 인식의 일종으로, 군사, 보안 등 다양한 분야에 응용된다.^[72] 일반적인 객체 탐지와 비교하여, 얼굴은 다양한 크기와 형태로 나타나며, 구성 요소의 배치나 피부색 차이 등으로 인해 동일한 얼굴이 존재하지 않는다는 특징이 있다.^[25]

얼굴 감지 데이터셋
이름	발표 연도	이미지 수	특징
UMD Faces - Video^[73]	2017	22,075장	동영상 포함
MegaFace^[74]	2017	약 470만 장
MS-Celeb-1M^[75]	2016	약 100만 장	Microsoft 주최 경쟁에서 사용

5. 1. 벤치마크

객체 탐지 성능 평가는 주로 평균 정밀도(mAP)를 사용한다. mAP는 정밀도-재현율 곡선 아래 면적을 의미하며, 객체 위치 추정의 정확도와 객체 분류의 정확도를 종합적으로 평가한다.

교차 면적 오버 유니온(IoU)은 예측된 경계 상자와 실제 경계 상자의 겹치는 영역을 측정하는 지표로, 객체 위치 추정의 정확도를 평가하는 데 사용된다.^[26]

정밀도(Precision): "얼마나 정답이 아닌 것을 오답으로 탐지하지 않는지"를 나타내는 지표이다. 즉, 예측 결과 중 실제 정답의 비율을 의미한다.

:

\mathsf{Precision} = \frac{TP}{TP+FP}

:TP(True Positive): 참 긍정 (실제로 정답을 맞춘 경우)

:FP(False Positive): 거짓 긍정 (정답이 아닌데 정답으로 예측한 경우)

재현율(Recall): "얼마나 정답을 놓치지 않았는지"를 나타내는 지표이다. 즉, 실제 정답 중 예측이 성공한 비율을 의미한다.

:

\mathsf{Recall} = \frac{TP}{TP+FN}

:FN(False Negative): 거짓 부정 (정답인데 정답으로 예측하지 못한 경우)

일반적으로 정밀도와 재현율은 상충 관계를 가진다.^[80]

일반 물체 감지 데이터 세트 목록
이름	발표년도	매수	클래스 수^[67]	특징・비고
Pascal VOC^[68]	2005	11,540	20	2005년에 4개 클래스로 시작, 현재 20개 클래스. 후발 데이터 세트에 비해 소규모^[26]
ImageNet^[69]	2009	1,400만 장 이상	21,841	서브세트인 ImageNet1000은, 대회의 벤치마크 데이터 세트로 사용^[26]
MS COCO^[70]	2014	약 328,000	91	ImageNet 단점 보완, 작은 물체 및 폐색(오클루전)이 많은 이미지를 포함. 2019년 현재, 물체 감지 벤치마크 표준^[26]
OpenImage^[71]	2017	약 900만 장	600	2019년 현재, 최대 규모^[26], 반자동 라벨 부여 및 사람의 검수^[71]

5. 2. 데이터셋

객체 탐지 연구 및 개발에는 다양한 데이터셋이 활용된다.

기계 학습에서는 주로 모델의 학습과 평가를 위해 Training,_validation,_and_test_sets|데이터세트^영어를 사용한다.

일반적으로 제안된 기법을 공정하게 평가하기 위해, 일정 난이도가 있는 데이터셋을 벤치마크로 사용하는 것은 중요하다. 심층 학습은 대량의 학습 데이터를 필요로 하는데, 객체 탐지를 위한 라벨링은 이미지 분류의 라벨링보다 어렵다. 이미지에 포함된 객체의 종류를 선택할 뿐만 아니라, 그 위치까지 특정하여 그릴 필요가 있기 때문이다.^[65] 또한, 바운딩 박스는 객체 영역을 더욱 정확하게 둘러쌀수록 좋기 때문에, 품질과 비용의 균형을 잡는 것이 어렵다.^[65] 대규모 데이터세트를 단독으로 구축하는 것 역시 어려운 과제이므로, 라벨링된 대량의 데이터에 온라인으로 접근할 수 있는 환경이 갖춰짐으로써 연구·개발이 진전된다는 측면도 있다.^[26]

이하에서는 일반 객체 탐지를 위한 데이터세트에 더하여, 분야별 데이터세트에 대해서도 설명한다.

얼굴 인식은 본인 인증을 위한 생체 인식 기술이며, 군사, 보안 등 많은 분야에 응용되는 기술이다.^[72] 일반 물체 감지 작업과 비교하여, 더 넓은 범위의 스케일의 대상을 인식해야 한다. 또한 얼굴은 부품의 배치나 피부색의 차이 등으로 인해 같은 것이 하나도 존재하지 않는다는 차이점이 있다.^[25]

얼굴 감지 데이터 세트 목록
명칭	발표년도	매수	특징·비고
UMD Faces - Video^[73]	2017	22,075	동영상 포함
MegaFace^[74]	2017	약 470만
MS-Celeb-1M^[75]	2016	약 100만	Microsoft가 개최한 경쟁에서 사용된 데이터 세트

6. 과제

객체 탐지는 동영상 속 특정 객체를 찾아내고, 그 위치와 범위를 파악하는 기술이다.^[26] 객체의 위치는 주로 바운딩 박스라고 불리는 사각형으로 표시한다.^[27]

객체 탐지는 이미지 이해와 컴퓨터 비전의 핵심 기술이며, 세분화, 장면 이해, 비디오 추적, 이미지 캡션 생성 등 더 복잡한 작업들의 기반이 된다.^[26] 또한, 보안, 자율 주행, 이미지 검색, 로봇 비전 등 현실 세계의 다양한 분야에 응용되고 있다.^[25]^[26]

객체 탐지가 어려운 이유는 다음과 같다:

클래스 분류 작업과 달리, 객체의 위치까지 정확하게 파악해야 한다.^[29]
인식 대상 객체가 배경보다 훨씬 적은 경우가 많다.^[29]

동영상에서 다양한 객체를 인식하려면, 의미 있고 강건한 특징 표현을 추출해야 한다.^[25] 예를 들어, 자동차 이미지들 간에도 세단, 왜건, 트럭 등 외형 차이가 있지만, 모두 '자동차'로 인식해야 한다.^[30] 같은 클래스의 객체라도 다양한 형태가 존재하고, 형태가 변할 수도 있기 때문에, 이러한 변화에도 같은 클래스로 인식할 수 있는 특징 추출 방법이 필요하다.^[30]

2004년 SIFT^[30] 발표 이후, 더욱 견고한 특징량을 찾는 연구가 활발해졌다.^[26] 2012년 심층 신경망(DNN)이 이미지 분류에서 뛰어난 성능을 보이면서,^[31] 객체 탐지에도 DNN이 활용되기 시작했고,^[48] 2019년경에도 DNN을 사용한 객체 탐지 방법이 활발하게 연구되고 있다.^[26]

R-CNN의 단점을 개선하기 위해 SPPNet,^[35] Fast R-CNN,^[49] Faster R-CNN^[50] 등 다양한 탐지 시스템이 발표되었다. 특히 Faster R-CNN은 신경망을 사용하여 물체 후보 영역 제안 부분을 대체하여(Region Proposal Network, RPN) 시스템 전체를 신경망으로 학습할 수 있게 되었고, 속도도 크게 향상되었다.^[25] Mask R-CNN^[36]과 같이 R-CNN 계열의 2단계 탐지 시스템 연구도 활발하게 진행되고 있다.^[25]

2단계 탐지 시스템은 계산 자원이 많이 필요하여 휴대용 단말이나 웨어러블 기기 등에 적용하기 어렵다는 단점이 있다.^[26] 이를 해결하기 위해, 1단계 탐지 시스템 연구도 진행되고 있다.^[26] OverFeat,^[37] YOLO,^[53] SSD,^[57] EfficientDet^[40] 등이 대표적인 1단계 탐지 시스템이다. 특히, EfficientDet^[40]은 조건에 따라 2단계 시스템인 Mask R-CNN의 정밀도를 넘어서기도 한다.^[40]

기계 학습에서는 모델 학습과 평가를 위해 데이터 세트를 사용한다.^[32] 객체 탐지에서는 공정한 평가를 위해 일정 난이도의 데이터 세트를 벤치마크로 사용하는 것이 중요하다.^[33] 심층 학습은 대량의 학습 데이터를 필요로 하는데, 객체 탐지용 데이터는 이미지 분류용 데이터보다 레이블링(객체 종류 선택, 위치 특정)이 더 어렵고, 품질과 비용의 균형을 맞추기 어렵다.^[65] 따라서, 레이블링된 대량의 데이터에 온라인으로 접근할 수 있는 환경이 연구 개발에 큰 영향을 미친다.^[26]

일반 객체 탐지용 데이터 세트 외에도, 특정 분야(예: 자율 주행)에 특화된 데이터 세트도 존재한다.^[25] 자율 주행 분야에서는 도로 표지판이나 신호등 인식이 필수적이기 때문에,^[76] 이를 포함한 데이터 세트가 중요하다.

도로 장면 데이터 세트 목록
이름	발표 년도	매수	클래스 수	특징・비고
CityScapes^[77]	2016	약 5,000	30	독일 도시들의 도로 장면 이미지, 세분화 레이블 제공
KITTI^[78]	2012	약 15,000	16	옵티컬 플로우 정보, 3차원 주석 데이터도 존재
LISA^[79]	2012	약 6,610	47	미국에서 촬영된 도로 장면, 동영상 버전도 존재

6. 1. 회전

객체 탐지에서 이미지 내 객체의 회전은 탐지 정확도를 저하시키는 요인 중 하나이다. 심층 신경망(DNN)은 평행 이동과 같은 기하학적 변화에는 어느 정도 강하지만, 회전이나 스케일 변화가 커지면 결과가 달라지는 문제가 있다.^[26]

회전 변환에 대한 강건성을 확보하기 위해 다양한 기법이 제안되고 있으며, 텍스트 인식^[82]이나 항공 이미지에서의 객체 탐지^[83] 등에서 연구가 진행되고 있다. 회전 이미지를 포함하는 데이터 세트가 작성된 사례도 있다.^[84]^[85] 그러나 일반적인 객체에 대한 대규모 데이터 세트는 회전 이미지를 포함하지 않아,^[68]^[69]^[70]^[71] 일반 물체에 대한 연구는 제한적인 상황이다.^[26]

6. 2. 장애물 (Occlusion)

객체 탐지에서 실제 이미지에는 종종 대상 물체를 가리는 장애물이 존재하여 대상 물체로부터의 정보를 손상시키는 경우가 있다.^[26] 이러한 가림(occlusion) 현상은 객체 탐지의 정확도를 저하시키는 주요 요인 중 하나이다.

이에 대응하기 위한 방법으로, 오프셋^[86]을 고려한 합성곱 및 풀링^[87]을 수행하는 방법^[88]이 있다. 풀링은 다운샘플링 기법 중 하나로, 기계 학습에서 평균 풀링과 최대 풀링이 자주 사용된다.^[87] 예를 들어, 주변 2x2 범위 그리드 내 값의 평균 또는 최대값을 대표로 하나의 그리드로 압축하여 특징 맵 전체 크기를 1/4로 줄일 수 있다. 이를 통해 이미지 전체에 흩어진 특징을 압축할 수 있다.

또한, 생성적 적대 신경망(GAN) 등 생성 네트워크를 사용하여 장애물을 의도적으로 만드는 방법도 제안되고 있지만,^[89] 가림을 둘러싼 과제는 아직 완전히 해결되지 않았다.^[26] 따라서 장애물에 강건한 객체 탐지 기술 개발은 여전히 중요한 연구 과제로 남아있다.

6. 3. 이미지 열화

저조도, 노이즈, 이미지 압축, 저렴한 촬영 장비 사용 등의 요인으로 인해 발생하는 이미지 열화는 객체 탐지의 주요 과제 중 하나이다.^[26] 이미지에 노이즈가 발생하면 객체 탐지 성능이 저하될 수 있다.

기존의 객체 탐지 기술은 일반적으로 고화질 이미지를 전제로 개발되었으며, 대규모 데이터 세트 또한 고화질 이미지를 기반으로 구축되어 이미지 열화를 고려하지 않는 경우가 많다.^[26] 따라서 이미지 열화에 강건한 객체 탐지 기술 개발이 필요하다.

6. 4. 클래스 불균형

객체 탐지 데이터셋에서는 배경 클래스가 객체 클래스보다 훨씬 많은 경우가 흔하다. 이러한 클래스 불균형은 객체 탐지 모델의 학습을 방해할 수 있다.

참조

_[1] 논문 Knowledge-assisted semantic video object detection http://www.iti.gr/~b[...] IEEE Transactions on Circuits and Systems for Video Technology 2005
_[2] 서적 Multimedia Image and Video Processing https://books.google[...] CRC Press 2012-03-01
_[3] 서적 2020 the 4th International Conference on Video and Image Processing
_[4] 서적 2007 IEEE 11th International Conference on Computer Vision 2007
_[5] arXiv Unsupervised Domain Adaptation of Object Detectors: A Survey 2021-07-04
_[6] arXiv A Robust Learning Approach to Domain Adaptive Object Detection 2019-11-18
_[7] 학술지 Curriculum self-paced learning for cross-domain object detection https://www.scienced[...] 2021-03-01
_[8] 서적 2022 IEEE 25th International Conference on Intelligent Transportation Systems (ITSC) 2022-10
_[9] arXiv AWADA: Attention-Weighted Adversarial Domain Adaptation for Object Detection 2022-08-31
_[10] arXiv Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 2020-08-24
_[11] 서적 Neural Networks for Babies Sourcebooks
_[12] 학술지 Histograms of oriented gradients for human detection https://hal.inria.fr[...] 2005
_[13] arXiv OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 2014-02-23
_[14] 서적 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition IEEE 2014
_[15] 서적 Proceedings of the IEEE International Conference on Computer Vision 2015
_[16] 학술지 Faster R-CNN 2015
_[17] arXiv You Only Look Once: Unified, Real-Time Object Detection 2016-05-09
_[18] 서적 Computer Vision – ECCV 2016 2016-10
_[19] 서적 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2018
_[20] 학술지 Focal Loss for Dense Object Detection
_[21] arXiv Libra R-CNN: Towards Balanced Learning for Object Detection 2019-04-04
_[22] arXiv Deformable ConvNets v2: More Deformable, Better Results 2018
_[23] arXiv Deformable Convolutional Networks 2017
_[24] 논문 Knowledge-assisted semantic video object detection http://www.iti.gr/~b[...] IEEE Transactions on Circuits and Systems for Video Technology 2005
_[25] 학술지 Object Detection with Deep Learning: A Review IEEE 2020-11-20
_[26] 학술지 Deep Learning for Generic Object Detection: A Survey 2020-11-20
_[27] 학술지 ImageNet Large Scale Visual Recognition Challenge 2020-11-20
_[28] 학술지 安全安心な社会を支える画像認識技術(<特集>企業におけるAI研究の最前線) 人工知能学会
_[29] 학술지 Object class detection: A survey https://dl.acm.org/d[...] 2013-10
_[30] 학술지 Distinctive Image Features from Scale-Invariant Keypoints https://www.cs.ubc.c[...] 2020-11-20
_[31] 학술지 ImageNet Classification with Deep Convolutional Neural Networks
_[32] 학술지 The Representation and Matching of Pictorial Structures
_[33] 학술지 Robust Real-time Object Detection
_[34] 학술지 A survey on deep learning for big data
_[35] 학술지 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 2020-11-23
_[36] 논문 Mask R-CNN 2020-11-23
_[37] 논문 OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks
_[38] 논문 Deep learning and its applications to machine health monitoring https://linkinghub.e[...] 2019-01
_[39] 논문 Fully convolutional networks for semantic segmentation http://ieeexplore.ie[...] IEEE 2015-06
_[40] 논문 EfficientDet: Scalable and Efficient Object Detection
_[41] arXiv Yolov4: Optimal Speed and Accuracy of Object Detection 2020
_[42] 논문 Rapid object detection using a boosted cascade of simple features http://ieeexplore.ie[...] IEEE Comput. Soc 2001
_[43] 논문 Haar-like特徴とエッジ検出を用いた仮名漢字領域アルゴリズムの開発精密工学会
_[44] 논문 ドライブレコーダーからの歩行者認識技術の研究 https://hdl.handle.n[...] 愛知工業大学 2010
_[45] 논문 画像からの統計的学習手法に基づく人検出 2013-09
_[46] 논문 Object recognition from local scale-invariant features http://ieeexplore.ie[...] IEEE 1999
_[47] 논문 Histograms of oriented gradients for human detection https://hal.inria.fr[...] 2005
_[48] 논문 Rich feature hierarchies for accurate object detection and semantic segmentation https://www.cv-found[...] IEEE 2014
_[49] 논문 Fast R-CNN https://www.cv-found[...] 2015
_[50] 논문 Faster R-CNN 2015
_[51] 논문 Cascade R-CNN: High Quality Object Detection and Instance Segmentation https://ieeexplore.i[...] 2019
_[52] 논문 Comparative Study of Object Detection Algorithms https://d1wqtxts1xzl[...] 2021-03-29
_[53] 논문 You only look once: Unified, real-time object detection 2016
_[54] arXiv YOLO9000: better, faster, stronger 2017
_[55] arXiv Yolov3: An incremental improvement 2018
_[56] arXiv Yolov4: Optimal Speed and Accuracy of Object Detection 2020
_[57] 서적 Computer Vision – ECCV 2016 2016-10
_[58] 논문 Single-Shot Refinement Neural Network for Object Detection 2018
_[59] arXiv Libra R-CNN: Towards Balanced Learning for Object Detection 2019-04-04
_[60] 논문 Focal Loss for Dense Object Detection
_[61] 논문 Focal Loss for Dense Object Detection
_[62] 논문 Object Detection Using Machine Learning for Visually Impaired People https://doi.org/10.3[...] 2020
_[63] arXiv Deformable ConvNets v2: More Deformable, Better Results 2018
_[64] arXiv Deformable Convolutional Networks 2017
_[65] 간행물 Crowdsourcing Annotations for Visual Object Detection https://www.aaai.org[...] AAAI 2021-03-24
_[66] 논문 UMDFaces: An Annotated Face Dataset for Training Deep Networks 2020-11-23
_[67] 문서
_[68] 논문 The PASCAL Visual Object Classes Challenge: A Retrospective
_[69] 논문 ImageNet: A large-scale hierarchical image database https://www.research[...] 2020-11-23
_[70] 논문 Microsoft COCO: Common Objects in Context 2020-11-23
_[71] 논문 The Open Images Dataset V4 2020-11-23
_[72] 논문 Deep Face Recognition: A Survey 2020-11-23
_[73] 논문 The Do’s and Don’ts for CNN-based Face Verification 2020-11-23
_[74] 논문 Level Playing Field for Million Scale Face Recognition
_[75] 논문 MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition 2020-11-23
_[76] 논문 A Hierarchical Deep Architecture and Mini-batch Selection Method for Joint Traffic Sign and Light Detection 2020-11-23
_[77] 논문 The Cityscapes Dataset for Semantic Urban Scene Understanding
_[78] 논문 Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite
_[79] 논문 Vision-Based Traffic Sign Detection and Analysis for Intelligent Driver Assistance Systems: Perspectives and Survey
_[80] 논문 Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation https://www.cv-found[...] 2020-11-23
_[81] 논문 Understanding image representations by measuring their equivariance and equivalence https://www.cv-found[...] 2020-11-23
_[82] 논문 Arbitrary-Oriented Scene Text Detection via Rotation Proposals 2020-11-23
_[83] 논문 Learning RoI Transformer for Oriented Object Detection in Aerial Images 2020-11-23
_[84] 논문 DOTA: A Large-Scale Dataset for Object Detection in Aerial Images 2020-11-23
_[85] 논문 A High Resolution Optical Satellite Image Dataset for Ship Recognition and Some New Baselines
_[86] 문서 一定の値だけ座標をずらすこと。
_[87] 논문 スキップ接続によるプーリング層の構成および表現力に基づくそれらのモデルの解析 2019-06-01
_[88] 논문 Deformable Convolutional Networks 2020-11-23
_[89] 논문 A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection 2020-11-23
_[90] 저널 Histograms of oriented gradients for human detection https://hal.inria.fr[...] 2019-11-15
_[91] 저널 Rich feature hierarchies for accurate object detection and semantic segmentation https://www.cv-found[...] IEEE 2019-11-15
_[92] 저널 Fast R-CNN https://www.cv-found[...] 2019-11-15
_[93] 저널 Faster R-CNN https://arxiv.org/pd[...] 2015
_[94] ArXiv Libra R-CNN: Towards Balanced Learning for Object Detection 2019-04-04
_[95] 서적 SSD: Single shot multibox detector 2016-10
_[96] 저널 You only look once: Unified, real-time object detection 2016
_[97] ArXiv YOLO9000: better, faster, stronger 2017
_[98] ArXiv Yolov3: An incremental improvement 2018
_[99] ArXiv Yolov4: Optimal Speed and Accuracy of Object Detection 2020
_[100] 서적 Single-Shot Refinement Neural Network for Object Detection 2018
_[101] 저널 Focal Loss for Dense Object Detection
_[102] ArXiv Libra R-CNN: Towards Balanced Learning for Object Detection 2019-04-04
_[103] ArXiv Deformable ConvNets v2: More Deformable, Better Results 2018
_[104] ArXiv Deformable Convolutional Networks 2017

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com