객체 인식 개요
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
- 1. 개요
- 2. CAD와 유사한 객체 모델 기반 접근 방식
- 3. 외형 기반 방법 (Appearance-based methods)
- 4. 특징 기반 방법 (Feature-based methods)
- 4.1. 해석 트리 (Interpretation trees)
- 4.2. 가설 및 검증 (Hypothesize and test)
- 4.3. 자세 일관성 (Pose consistency)
- 4.4. 자세 클러스터링 (Pose clustering)
- 4.5. 불변성 (Invariance)
- 4.6. 기하 해싱 (Geometric hashing)
- 4.7. SIFT (Scale-invariant feature transform)
- 4.8. SURF (Speeded Up Robust Features)
- 4.9. 단어 가방 표현 (Bag of words representations)
- 5. 유전 알고리즘 (Genetic algorithm)
- 6. 기타 접근 방식
- 7. 응용 분야
- 참조
1. 개요
객체 인식은 컴퓨터 비전 분야의 핵심 기술로, 이미지나 비디오 내에서 특정 객체를 식별하고 분류하는 것을 목표로 한다. CAD와 유사한 객체 모델, 외형 기반 방법, 특징 기반 방법 등 다양한 접근 방식이 있으며, 각 방법은 에지 매칭, 분할-정복 탐색, 그레이스케일 매칭, 기울기 매칭, 수용장 반응 히스토그램, 대규모 모델베이스, 해석 트리, 가설 및 검증, 자세 일관성, 자세 클러스터링, 불변성, 기하 해싱, SIFT, SURF, 단어 가방 표현 등을 활용한다. 유전 알고리즘과 3차원 객체 인식, 생물학적 영감, 인공 신경망, 딥 러닝, 상황 인식, 템플릿 매칭, 텍스처, 토픽 모델, 비지도 학습 등 다양한 방법도 연구되고 있으며, 행위 인식, 자동 이미지 주석, 얼굴 감지, 광학 문자 인식, 콘텐츠 기반 이미지 검색 등 다양한 응용 분야에서 활용된다.
더 읽어볼만한 페이지
객체 인식 개요 | |
---|---|
개요 | |
정의 | 컴퓨터 비전에서 객체 인식은 특정 클래스 또는 객체 인스턴스를 식별하는 기술이다. |
관련 분야 | 컴퓨터 비전 이미지 처리 인공지능 |
접근 방식 | |
기반 접근 방식 | 기계 학습 딥 러닝 |
알고리즘 | 특징 기반 인식 템플릿 매칭 모양 기반 방법 외형 기반 방법 3차원 모델 기반 방법 |
과제 | |
해결해야 할 과제 | 시점 변화 조명 변화 객체 가림 객체 변형 배경 클러터 |
응용 분야 | |
적용 분야 | 로봇 공학 자율 주행 보안 시스템 의료 영상 소매 분석 |
2. CAD와 유사한 객체 모델 기반 접근 방식
데이비드 마아가 제안한 Primal sketch와 가장자리 감지를 통해 얻어진 윤곽선 정보를 활용하는 방식은 3차원 모델링에 사용되는 CAD와 유사하다.[36][1] 마르, 모한, 네바티아, 로우, 올리비에 포제라스 등의 연구자들이 이 분야의 연구를 진행했다.
2. 1. 윤곽선 기반 인식
2. 2. 부분 기반 인식
부분 기반 인식은 객체를 여러 부분으로 나누어 인식하고, 이 부분들을 조합하여 전체 객체를 인식하는 방법이다. 이 방식은 토마스 빈포드(Thomas Binford)가 제안한 일반화된 실린더와 어빙 비더만(Irving Biederman)의 지온 (심리학) 이론[37], 그리고 디킨슨(Dickinson), 포사이스(Forsyth), 폰세(Ponce)의 연구 등에서 찾아볼 수 있다.3. 외형 기반 방법 (Appearance-based methods)
객체 인식을 수행하기 위해 객체의 예시 이미지(템플릿 또는 예제라고 함)를 사용한다. 객체는 다양한 조건에서 다르게 보인다.
- 조명 또는 색상의 변화
- 시야 방향의 변화
- 크기/모양의 변화
단일 예제만으로는 안정적으로 성공하기 어렵다. 그러나 객체의 모든 외관을 표현하는 것은 불가능하다.
==== 에지 매칭 (Edge matching) ====
에지 매칭은 객체의 가장자리(Edge) 정보를 이용하여 객체를 인식하는 방법이다. 캐니 에지 검출과 같은 에지 검출 기술을 사용하여 에지를 찾는다. 조명과 색상의 변화는 일반적으로 이미지 에지에 큰 영향을 미치지 않기 때문에, 이러한 환경 변화에 강인한 객체 인식 방법이다.
에지 매칭은 템플릿과 이미지에서 에지를 감지하고, 에지 이미지를 비교하여 템플릿을 찾는다. 이 때, 가능한 템플릿 위치 범위를 고려해야 한다. 템플릿과 이미지 간의 유사도를 측정하는 방법은 다음과 같다.
- 좋음: 겹치는 에지의 수를 센다. 하지만 형태 변화에 강하지 않다.
- 더 좋음: 검색 이미지에서 에지로부터 일정 거리 내에 있는 템플릿 에지 픽셀의 수를 센다.
- 최상: 검색 이미지에서 가장 가까운 에지까지의 거리의 확률 분포를 결정한다(템플릿이 올바른 위치에 있는 경우). 각 템플릿 위치가 이미지를 생성할 가능성을 추정한다.
==== 분할-정복 탐색 (Divide-and-Conquer search) ====
분할-정복 탐색은 탐색 공간을 분할하고 정복하는 방식으로 객체를 인식하는 전략이다. 모든 위치를 집합(위치 공간의 셀)으로 간주하고, 셀에서 최적 위치의 점수에 대한 하한을 결정한다. 하한이 너무 크면 셀을 가지치기하고, 그렇지 않으면 셀을 하위 셀로 분할하여 각 하위 셀을 재귀적으로 시도한다. 셀이 충분히 작아지면 이 과정은 중지된다.
다중 해상도 검색과 달리, 이 기술은 하한이 정확하다는 가정 하에 기준을 충족하는 모든 일치를 찾도록 보장한다. 최적 점수에 대한 하한을 찾기 위해 셀 중심이 나타내는 템플릿 위치의 점수를 살펴보고, 셀의 다른 위치에 대해 "중심" 위치에서 최대 변경 사항을 뺀다(셀 모서리에서 발생). 거리의 경계를 결정하는 데서 복잡성이 발생한다.
==== 그레이스케일 매칭 (Greyscale matching) ====
그레이스케일 매칭은 이미지의 픽셀 값을 기반으로 객체를 인식하는 방법이다. 픽셀 거리는 픽셀 위치와 픽셀 강도 모두의 함수로 계산해야 한다. 에지는 대부분 조명 변화에 강하지만, 많은 정보를 버리게 된다. 그레이스케일 매칭은 색상에도 적용할 수 있다.
==== 기울기 매칭 (Gradient matching) ====
다른 조명 변화에 강건하면서도 많은 정보를 유지하는 또 다른 방법은 이미지 기울기를 비교하는 것이다. 매칭은 흑백 이미지 매칭과 유사하게 수행된다. 간단한 대안으로, 정규화된 상관 관계를 사용할 수 있다.
==== 수용장 반응 히스토그램 (Histograms of receptive field responses) ====
수용장 반응 히스토그램은 명시적인 점 대응을 피하고, 수용장 반응에 서로 다른 이미지 점 간의 관계를 암묵적으로 코딩하여 객체를 인식하는 방법이다.[2][3][4][5] 이 방식은 스웨인과 발라드(Swain and Ballard, 1991), 쉴레와 크롤리(Schiele and Crowley, 2000), 린데와 린데베르그(Linde and Lindeberg, 2004, 2012)에 의해 연구되었다.
==== 대규모 모델베이스 (Large modelbases) ====
데이터베이스에서 특정 이미지를 효율적으로 검색하는 한 가지 방법은 템플릿의 고유 벡터(고유 얼굴)를 사용하는 것이다. 모델베이스는 인식해야 할 객체의 기하학적 모델 모음이다.
3. 1. 에지 매칭 (Edge matching)
에지 매칭은 객체의 가장자리(Edge) 정보를 이용하여 객체를 인식하는 방법이다. 캐니 에지 검출과 같은 에지 검출 기술을 사용하여 에지를 찾는다. 조명과 색상의 변화는 일반적으로 이미지 에지에 큰 영향을 미치지 않기 때문에, 이러한 환경 변화에 강인한 객체 인식 방법이다.에지 매칭은 템플릿과 이미지에서 에지를 감지하고, 에지 이미지를 비교하여 템플릿을 찾는다. 이 때, 가능한 템플릿 위치 범위를 고려해야 한다. 템플릿과 이미지 간의 유사도를 측정하는 방법은 다음과 같다.
- 좋음: 겹치는 에지의 수를 센다. 하지만 형태 변화에 강하지 않다.
- 더 좋음: 검색 이미지에서 에지로부터 일정 거리 내에 있는 템플릿 에지 픽셀의 수를 센다.
- 최상: 검색 이미지에서 가장 가까운 에지까지의 거리의 확률 분포를 결정한다(템플릿이 올바른 위치에 있는 경우). 각 템플릿 위치가 이미지를 생성할 가능성을 추정한다.
3. 2. 분할-정복 탐색 (Divide-and-Conquer search)
분할-정복 탐색은 탐색 공간을 분할하고 정복하는 방식으로 객체를 인식하는 전략이다. 모든 위치를 집합(위치 공간의 셀)으로 간주하고, 셀에서 최적 위치의 점수에 대한 하한을 결정한다. 하한이 너무 크면 셀을 가지치기하고, 그렇지 않으면 셀을 하위 셀로 분할하여 각 하위 셀을 재귀적으로 시도한다. 셀이 충분히 작아지면 이 과정은 중지된다.다중 해상도 검색과 달리, 이 기술은 하한이 정확하다는 가정 하에 기준을 충족하는 모든 일치를 찾도록 보장한다. 최적 점수에 대한 하한을 찾기 위해 셀 중심이 나타내는 템플릿 위치의 점수를 살펴보고, 셀의 다른 위치에 대해 "중심" 위치에서 최대 변경 사항을 뺀다(셀 모서리에서 발생). 거리의 경계를 결정하는 데서 복잡성이 발생한다.
3. 3. 그레이스케일 매칭 (Greyscale matching)
그레이스케일 매칭은 이미지의 픽셀 값을 기반으로 객체를 인식하는 방법이다. 픽셀 거리는 픽셀 위치와 픽셀 강도 모두의 함수로 계산해야 한다. 에지는 대부분 조명 변화에 강하지만, 많은 정보를 버리게 된다. 그레이스케일 매칭은 색상에도 적용할 수 있다.3. 4. 기울기 매칭 (Gradient matching)
다른 조명 변화에 강건하면서도 많은 정보를 유지하는 또 다른 방법은 이미지 기울기를 비교하는 것이다. 매칭은 흑백 이미지 매칭과 유사하게 수행된다. 간단한 대안으로, 정규화된 상관 관계를 사용할 수 있다.3. 5. 수용장 반응 히스토그램 (Histograms of receptive field responses)
수용장 반응 히스토그램은 명시적인 점 대응을 피하고, 수용장 반응에 서로 다른 이미지 점 간의 관계를 암묵적으로 코딩하여 객체를 인식하는 방법이다.[2][3][4][5] 이 방식은 스웨인과 발라드(Swain and Ballard, 1991), 쉴레와 크롤리(Schiele and Crowley, 2000), 린데와 린데베르그(Linde and Lindeberg, 2004, 2012)에 의해 연구되었다.3. 6. 대규모 모델베이스 (Large modelbases)
데이터베이스에서 특정 이미지를 효율적으로 검색하는 한 가지 방법은 템플릿의 고유 벡터(고유 얼굴)를 사용하는 것이다. 모델베이스는 인식해야 할 객체의 기하학적 모델 모음이다.4. 특징 기반 방법 (Feature-based methods)
객체의 특징점을 추출하고, 이를 기반으로 객체를 인식하는 방법이다.
- 객체 특징과 이미지 특징 사이의 적합한 일치를 찾기 위해 검색이 사용된다.
- 주요 제약 조건은 객체의 단일 위치가 모든 적합한 일치를 설명해야 한다는 것이다.
- 인식할 객체와 검색할 이미지에서 특징 추출을 하는 방법.
- * 표면 패치
- * 코너
- * 선형 모서리
==== 해석 트리 (Interpretation trees) ====
해석 트리는 트리 검색을 이용하여 가능한 일치 항목을 찾는 방법 중 하나이다. 트리의 각 노드는 일치하는 항목 집합을 나타낸다. 루트 노드는 빈 집합을 나타내며, 다른 각 노드는 상위 노드의 일치 항목과 추가 일치 항목 하나를 합한 것을 나타낸다. 이때, 일치하는 항목이 없는 특징에 대해서는 와일드카드를 사용한다. 일치하는 항목 집합이 실행 불가능할 때 노드는 "가지치기"되어 자식 노드가 없어진다. 역사적으로 중요하며 여전히 사용되지만, 덜 보편적으로 사용된다.
==== 가설 및 검증 (Hypothesize and test) ====
일반적인 아이디어는 이미지 특징 모음과 객체 특징 모음 간의 대응을 가설로 설정하는 것이다. 이를 통해 객체 좌표 프레임에서 이미지 프레임으로의 투영에 대한 가설을 생성한다. 이 투영 가설을 사용, 객체의 렌더링을 생성하는데, 이 단계는 역투영이라고도 한다. 렌더링과 이미지를 비교하여 둘이 충분히 유사하면 가설을 수용한다.
가설을 생성하는 다양한 방법이 있다. 카메라 내부 매개변수가 알려진 경우, 가설은 객체의 가상 위치 및 방향, 즉 자세와 같다. 기하학적 제약 조건을 활용, 객체 특징의 작은 세트에 대해 이미지 점의 모든 올바른 크기 하위 집합에 대한 대응을 구성한다. (이것이 가설이다)
세 가지 기본 접근 방식은 다음과 같다:
- 자세 일관성으로 가설 획득
- 자세 클러스터링으로 가설 획득
- 불변량을 사용하여 가설 획득
이는 중복되지만 무작위화 및/또는 그룹화를 사용하여 개선할 수 있는 비용이 많이 드는 검색이다.
- * 무작위화
객체를 놓칠 가능성이 작아질 때까지 작은 세트의 이미지 특징을 검사한다. 각 이미지 특징 세트에 대해 가능한 모든 일치하는 모델 특징 세트를 고려해야 한다.
공식은 다음과 같다:
(1 – Wc)k = Z
- W = "좋은" 이미지 점의 비율 (w ~ m/n)
- c = 필요한 대응 수
- k = 시도 횟수
- Z = 모든 시도가 하나 이상의 잘못된 대응을 사용할 확률
- * 그룹화
동일한 객체에서 나올 가능성이 있는 점 그룹을 결정할 수 있다면 검토해야 하는 가설 수를 줄일 수 있다.
==== 자세 일관성 (Pose consistency) ====
자세 일관성은 정렬이라고도 하며, 객체가 이미지에 정렬되기 때문이다. 이미지 특징과 모델 특징 간의 대응 관계는 독립적이지 않으며, 기하학적 제약이 따른다. 소수의 대응 관계만으로도 객체 위치를 파악할 수 있으며, 나머지 대응 관계는 이에 일치해야 한다.
일반적인 아이디어는 이미지 특징의 충분히 큰 그룹과 객체 특징의 충분히 큰 그룹 간에 일치한다고 가정하면, 이 가설로부터 누락된 카메라 매개변수를 복구할 수 있다는 것이다. (따라서 객체의 나머지 부분을 렌더링할 수 있다).
이를 위한 전략은 다음과 같다:
- 소수의 대응 관계 (예: 3D 인식을 위한 점 3개)를 사용하여 가설을 생성한다.
- 다른 모델 특징을 이미지에 backproject하고 추가적인 대응 관계를 확인한다.
개별적인 객체 포즈를 얻는 데 필요한 최소한의 대응 관계를 사용한다.
==== 자세 클러스터링 (Pose clustering) ====
객체는 다수의 올바른 대응 집합을 생성하며, 각 집합은 대략 동일한 포즈를 갖는다. 각 객체의 포즈 공간을 나타내는 누산기 배열을 사용하여 포즈에 투표하는데, 이는 기본적으로 허프 변환이다.
전략은 다음과 같다. 각 객체에 대해 포즈 공간을 나타내는 누산기 배열을 설정하고, 각 요소는 포즈 공간의 "버킷"에 해당한다. 그런 다음 각 이미지 프레임 그룹을 가져와 모든 객체의 모든 프레임 그룹 간의 대응을 가정한다. 이러한 각 대응에 대해 포즈 매개변수를 결정하고, 해당 포즈 값에서 현재 객체에 대한 누산기 배열에 항목을 만든다. 임의의 객체의 누산기 배열에 많은 수의 투표가 있는 경우, 해당 포즈에서 해당 객체의 존재에 대한 증거로 해석될 수 있다. 이 증거는 검증 방법을 사용하여 확인할 수 있다.
이 방법은 개별 대응 대신 대응 집합을 사용한다. 각 집합이 소수의 가능한 객체 포즈를 생성하므로 구현이 더 쉽다.
잡음 저항을 개선하기 위해, 객체가 해당 포즈에 있다면 객체 프레임 그룹이 보이지 않는 경우 등, 명백히 신뢰할 수 없는 포즈에서 객체에 대한 투표를 계산하지 않을 수 있다. 이러한 개선으로 작동하는 시스템을 충분히 얻을 수 있다.
==== 불변성 (Invariance) ====
카메라 변환에 불변하는 기하학적 특성이 존재한다. 평면 객체의 이미지에 대해 가장 쉽게 개발되지만, 다른 경우에도 적용할 수 있다.
==== 기하 해싱 (Geometric hashing) ====
기하 해싱(Geometric hashing)은 기하 불변량을 사용하여 객체 가설에 투표하는 알고리즘이다. 포즈 클러스터링과 유사하지만, 포즈 대신 기하학에 투표한다. 원래 기하학적 특징(평면 모델의 보정되지 않은 아핀 뷰)을 특징 데이터베이스와 일치시키기 위해 개발되었다. 패턴 매칭, CAD/CAM 및 의료 영상 분야에서 널리 사용된다.
기하 해싱은 버킷의 크기를 선택하기 어렵고, '충분'의 의미를 확신하기 어렵다는 단점이 있다. 따라서 테이블이 막힐 위험이 있을 수 있다.
==== SIFT (Scale-invariant feature transform) ====
객체의 특징점들은 먼저 일련의 참조 이미지에서 추출되어 데이터베이스에 저장된다. 새로운 이미지의 각 특징을 이 데이터베이스와 개별적으로 비교하고, 특징 벡터의 유클리드 거리를 기반으로 후보 일치 특징을 찾아서 새로운 이미지에서 객체를 인식한다.[6][7]
==== SURF (Speeded Up Robust Features) ====
SURF (Speeded Up Robust Features)는 이미지 인식 분야에서 사용되는 강력한 이미지 감지기 및 설명자이다.[8] SURF는 표준 버전이 SIFT보다 몇 배 빠르며, 다양한 이미지 변환에 대해 SIFT보다 더 강력하다고 알려져 있다.[8] SURF는 근사된 2D 하르 웨이블릿 응답의 합을 기반으로 하며, 적분 영상을 효율적으로 사용하여 계산 속도를 높인다.[8]
==== 단어 가방 표현 (Bag of words representations) ====
단어 가방 모델을 참고하라.
4. 1. 해석 트리 (Interpretation trees)
해석 트리는 트리 검색을 이용하여 가능한 일치 항목을 찾는 방법 중 하나이다. 트리의 각 노드는 일치하는 항목 집합을 나타낸다. 루트 노드는 빈 집합을 나타내며, 다른 각 노드는 상위 노드의 일치 항목과 추가 일치 항목 하나를 합한 것을 나타낸다. 이때, 일치하는 항목이 없는 특징에 대해서는 와일드카드를 사용한다. 일치하는 항목 집합이 실행 불가능할 때 노드는 "가지치기"되어 자식 노드가 없어진다. 역사적으로 중요하며 여전히 사용되지만, 덜 보편적으로 사용된다.4. 2. 가설 및 검증 (Hypothesize and test)
일반적인 아이디어는 이미지 특징 모음과 객체 특징 모음 간의 대응을 가설로 설정하는 것이다. 이를 통해 객체 좌표 프레임에서 이미지 프레임으로의 투영에 대한 가설을 생성한다. 이 투영 가설을 사용, 객체의 렌더링을 생성하는데, 이 단계는 역투영이라고도 한다. 렌더링과 이미지를 비교하여 둘이 충분히 유사하면 가설을 수용한다.가설을 생성하는 다양한 방법이 있다. 카메라 내부 매개변수가 알려진 경우, 가설은 객체의 가상 위치 및 방향, 즉 자세와 같다. 기하학적 제약 조건을 활용, 객체 특징의 작은 세트에 대해 이미지 점의 모든 올바른 크기 하위 집합에 대한 대응을 구성한다. (이것이 가설이다)
세 가지 기본 접근 방식은 다음과 같다:
- 자세 일관성으로 가설 획득
- 자세 클러스터링으로 가설 획득
- 불변량을 사용하여 가설 획득
이는 중복되지만 무작위화 및/또는 그룹화를 사용하여 개선할 수 있는 비용이 많이 드는 검색이다.
- * 무작위화
객체를 놓칠 가능성이 작아질 때까지 작은 세트의 이미지 특징을 검사한다. 각 이미지 특징 세트에 대해 가능한 모든 일치하는 모델 특징 세트를 고려해야 한다.
공식은 다음과 같다:
(1 – Wc)k = Z
- W = "좋은" 이미지 점의 비율 (w ~ m/n)
- c = 필요한 대응 수
- k = 시도 횟수
- Z = 모든 시도가 하나 이상의 잘못된 대응을 사용할 확률
- * 그룹화
동일한 객체에서 나올 가능성이 있는 점 그룹을 결정할 수 있다면 검토해야 하는 가설 수를 줄일 수 있다.
4. 3. 자세 일관성 (Pose consistency)
자세 일관성은 정렬이라고도 하며, 객체가 이미지에 정렬되기 때문이다. 이미지 특징과 모델 특징 간의 대응 관계는 독립적이지 않으며, 기하학적 제약이 따른다. 소수의 대응 관계만으로도 객체 위치를 파악할 수 있으며, 나머지 대응 관계는 이에 일치해야 한다.일반적인 아이디어는 이미지 특징의 충분히 큰 그룹과 객체 특징의 충분히 큰 그룹 간에 일치한다고 가정하면, 이 가설로부터 누락된 카메라 매개변수를 복구할 수 있다는 것이다. (따라서 객체의 나머지 부분을 렌더링할 수 있다).
이를 위한 전략은 다음과 같다:
- 소수의 대응 관계 (예: 3D 인식을 위한 점 3개)를 사용하여 가설을 생성한다.
- 다른 모델 특징을 이미지에 backproject하고 추가적인 대응 관계를 확인한다.
개별적인 객체 포즈를 얻는 데 필요한 최소한의 대응 관계를 사용한다.
4. 4. 자세 클러스터링 (Pose clustering)
객체는 다수의 올바른 대응 집합을 생성하며, 각 집합은 대략 동일한 포즈를 갖는다. 각 객체의 포즈 공간을 나타내는 누산기 배열을 사용하여 포즈에 투표하는데, 이는 기본적으로 허프 변환이다.전략은 다음과 같다. 각 객체에 대해 포즈 공간을 나타내는 누산기 배열을 설정하고, 각 요소는 포즈 공간의 "버킷"에 해당한다. 그런 다음 각 이미지 프레임 그룹을 가져와 모든 객체의 모든 프레임 그룹 간의 대응을 가정한다. 이러한 각 대응에 대해 포즈 매개변수를 결정하고, 해당 포즈 값에서 현재 객체에 대한 누산기 배열에 항목을 만든다. 임의의 객체의 누산기 배열에 많은 수의 투표가 있는 경우, 해당 포즈에서 해당 객체의 존재에 대한 증거로 해석될 수 있다. 이 증거는 검증 방법을 사용하여 확인할 수 있다.
이 방법은 개별 대응 대신 대응 집합을 사용한다. 각 집합이 소수의 가능한 객체 포즈를 생성하므로 구현이 더 쉽다.
잡음 저항을 개선하기 위해, 객체가 해당 포즈에 있다면 객체 프레임 그룹이 보이지 않는 경우 등, 명백히 신뢰할 수 없는 포즈에서 객체에 대한 투표를 계산하지 않을 수 있다. 이러한 개선으로 작동하는 시스템을 충분히 얻을 수 있다.
4. 5. 불변성 (Invariance)
카메라 변환에 불변하는 기하학적 특성이 존재한다. 평면 객체의 이미지에 대해 가장 쉽게 개발되지만, 다른 경우에도 적용할 수 있다.4. 6. 기하 해싱 (Geometric hashing)
기하 해싱(Geometric hashing)은 기하 불변량을 사용하여 객체 가설에 투표하는 알고리즘이다. 포즈 클러스터링과 유사하지만, 포즈 대신 기하학에 투표한다. 원래 기하학적 특징(평면 모델의 보정되지 않은 아핀 뷰)을 특징 데이터베이스와 일치시키기 위해 개발되었다. 패턴 매칭, CAD/CAM 및 의료 영상 분야에서 널리 사용된다.기하 해싱은 버킷의 크기를 선택하기 어렵고, '충분'의 의미를 확신하기 어렵다는 단점이 있다. 따라서 테이블이 막힐 위험이 있을 수 있다.
4. 7. SIFT (Scale-invariant feature transform)
객체의 특징점들은 먼저 일련의 참조 이미지에서 추출되어 데이터베이스에 저장된다. 새로운 이미지의 각 특징을 이 데이터베이스와 개별적으로 비교하고, 특징 벡터의 유클리드 거리를 기반으로 후보 일치 특징을 찾아서 새로운 이미지에서 객체를 인식한다.[6][7]4. 8. SURF (Speeded Up Robust Features)
SURF (Speeded Up Robust Features)는 이미지 인식 분야에서 사용되는 강력한 이미지 감지기 및 설명자이다.[8] SURF는 표준 버전이 SIFT보다 몇 배 빠르며, 다양한 이미지 변환에 대해 SIFT보다 더 강력하다고 알려져 있다.[8] SURF는 근사된 2D 하르 웨이블릿 응답의 합을 기반으로 하며, 적분 영상을 효율적으로 사용하여 계산 속도를 높인다.[8]4. 9. 단어 가방 표현 (Bag of words representations)
wikitext컴퓨터 비전 분야에서는 단어 가방 모델을 참고하라.
5. 유전 알고리즘 (Genetic algorithm)
유전 알고리즘은 주어진 데이터 세트에 대한 사전 지식 없이 작동할 수 있으며, 인간의 개입 없이 인식 절차를 개발할 수 있다.[9][10] 최근 프로젝트에서는 칼텍(Caltech)의 오토바이, 얼굴, 비행기 및 자동차 이미지 데이터 세트에서 100% 정확도를, 어류 종 이미지 데이터 세트에서 99.4% 정확도를 달성했다.[9][10]
6. 기타 접근 방식
3차원 객체 인식 및 3차원 복원[11], 생물학적 영감 객체 인식, 인공 신경망 및 딥 러닝(특히 합성곱 신경망) 등의 방법이 연구되고 있다. 상황 인식[12][18], 명시적 및 암시적 표면 3차원 객체 모델, 고속 인덱싱[13], 전역 장면 표현[12], 경사 히스토그램 등도 활용된다. 확률적 문법[14], 클래스 내 전이 학습, 이미지 검색을 통한 객체 범주화, 반사율[15], 음영 복원[16], 템플릿 매칭, 텍스처[17], 토픽 모델[18], 비지도 학습, 윈도우 기반 감지, 변형 가능한 부분 모델, 빙엄 분포[19] 등의 접근 방식도 존재한다.
7. 응용 분야
객체 인식 방법은 다양한 분야에 응용된다.
참조
[1]
학술지
Perceptual organization for scene segmentation and description
http://iris.usc.edu/[...]
[2]
학술지
Color indexing
https://doi.org/10.1[...]
1991-11-01
[3]
학술지
Recognition without Correspondence using Multidimensional Receptive Field Histograms
https://doi.org/10.1[...]
2000-01-01
[4]
간행물
Object recognition using composed receptive field histograms of higher dimensionality
ftp://ftp1.nada.kth.[...]
O. Linde and T. Lindeberg
2004
[5]
학술지
Composed Complex-Cue Histograms: An Investigation of the Information Content in Receptive Field Based Image Descriptors for Object Recognition
http://www.csc.kth.s[...]
2012
[6]
웹사이트
Distinctive image features from scale-invariant keypoints
http://citeseer.ist.[...]
2004
[7]
학술지
Scale invariant feature transform
[8]
학술지
Speeded-Up Robust Features (SURF)
[9]
웹사이트
New object recognition algorithm learns on the fly
http://www.gizmag.co[...]
Gizmag.com
2014-01-20
[10]
학술지
A feature construction method for general object recognition
[11]
간행물
Unsupervised 3D object recognition and reconstruction in unordered datasets.
http://www.cs.ubc.ca[...]
IEEE
2005
[12]
간행물
The role of context in object recognition.
http://people.csail.[...]
2007
[13]
학술지
Structural indexing: Efficient 3-D object recognition.
http://graphics.stan[...]
1992
[14]
학술지
A stochastic grammar of images.
http://www.nowpublis[...]
2007
[15]
학술지
Reflectance based object recognition.
http://citeseerx.ist[...]
1996
[16]
학술지
Object recognition using shape-from-shading.
http://eprints.white[...]
2001
[17]
학술지
Textonboost for image understanding: Multi-class object recognition and segmentation by jointly modeling texture, layout, and context.
https://www.research[...]
2009
[18]
간행물
Context aware topic model for scene recognition.
http://citeseerx.ist[...]
IEEE
2012
[19]
웹사이트
Better robot vision
http://www.kurzweila[...]
KurzweilAI
2013-10-09
[20]
간행물
Long-term recurrent convolutional networks for visual recognition and description.
https://www.cv-found[...]
2015
[21]
간행물
Deep visual-semantic alignments for generating image descriptions.
https://www.cv-found[...]
2015
[22]
학술대회
Object recognition as machine translation: Learning a lexicon for a fixed image vocabulary
http://vision.cs.ari[...]
[23]
웹사이트
Android Eyes Computer Vision
https://play.google.[...]
[24]
학술지
Dermatologist-level classification of skin cancer with deep neural networks.
http://on-demand.gpu[...]
2017
[25]
간행물
Recognising Panoramas
http://faculty.cse.t[...]
2003
[26]
학술지
Geometrically robust image watermarking using scale-invariant feature transform and Zernike moments
http://www.opticsjou[...]
2007
[27]
학술지
Vision-based global localization and mapping for mobile robots
http://142.103.6.5/n[...]
2005
[28]
간행물
On the Role of Object-Specific features for Real World Object Recognition in Biological Vision.
https://apps.dtic.mi[...]
Artificial Intelligence Lab, and Department of Brain and Cognitive Sciences, Massachusetts Institute of Technology, Center for Biological and Computational Learning, Mc Govern Institute for Brain Research, Cambridge, MA, USA
[29]
학술지
Optical Character Recognition
https://www.jstor.or[...]
1992
[30]
서적
Industrial image processing: visual quality control in manufacturing
[31]
간행물
Image Indexing with Mixture Hierarchies
http://www.svcl.ucsd[...]
Compaq Computer Corporation, Proc. IEEE Conference in Computer Vision and Pattern Recognition, Kauai, Hawaii
2001
[32]
학술지
A real-time system for monitoring of cyclists and pedestrians
[33]
서적
Structural, Syntactic, and Statistical Pattern Recognition
Springer
2006
[34]
간행물
Learning, Positioning, and tracking Visual appearance
http://www1.cs.colum[...]
1994
[35]
학술지
Content-preserving warps for 3D video stabilization
[36]
저널
Perceptual organization for scene segmentation and description
http://iris.usc.edu/[...]
[37]
웹사이트
심리학에서 지온(geon)은 geometrical ions의 줄임말로, 대상의 하위 구성물을 표현하는 기하학적 형태이며, ±36개의 기본 모양이 있다.
https://blog.naver.c[...]
[37]
웹사이트
https://quizlet.com/[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com