척도 불변 특징 변환

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. SIFT 알고리즘의 단계
3. SIFT의 특징 및 장점
4. SIFT의 응용 분야
5. SIFT와 다른 특징 기술 방법과의 비교
- 5.1. SURF (Speeded-Up Robust Features)
참조

1. 개요

척도 불변 특징 변환(SIFT)은 이미지의 이동, 크기 변환, 회전, 조명 변화 및 기하학적 왜곡에 강인한 특징을 추출하는 알고리즘이다. 가우시안 차이(DoG) 함수를 이용한 스케일 공간 극값 검출, 키포인트 위치 보정, 방향 할당, 키포인트 기술자 생성의 네 단계를 거쳐 특징을 추출한다. 객체 인식, 이미지 매칭, 파노라마 생성, 증강 현실, 로봇 위치 추정 및 3D 장면 모델링 등 다양한 분야에 활용되며, PCA-SIFT, GLOH, SURF, KAZE 등과 같은 다른 특징 기술 방법과 비교 연구가 이루어지고 있다.

더 읽어볼만한 페이지

컴퓨터 비전 - 합성곱 신경망
합성곱 신경망(CNN)은 이미지, 영상 등 시각 데이터 처리에 특화된 인공 신경망으로, 합성곱층, 풀링층, 완전 연결층으로 구성되어 특징 추출, 차원 축소, 최종 분류 또는 예측을 수행하며 이미지 인식, 영상 분석, 자연어 처리 등 다양한 분야에 응용된다.
컴퓨터 비전 - 광학 흐름
광학 흐름은 비디오나 이미지에서 보이는 객체, 표면, 엣지의 움직임 패턴을 나타내며, 움직임 예측, 비디오 압축, 장면 구조 추정, 로봇 내비게이션 등 다양한 분야에 활용되는 중요한 기술이다.

척도 불변 특징 변환
개요
척도 불변 특징 변환 프로세스의 개략도
종류	특징점 검출 알고리즘
개발자	데이비드 로
개발 기관	브리티시 컬럼비아 대학교
발표 년도	1999년 (첫 발표), 2004년 (논문 발표)
활용 분야	물체 인식 로봇 공학 지도 작성 내비게이션 영상 등록 3차원 모델링 제스처 인식 영상 스티칭 비디오 추적 인간-컴퓨터 상호 작용 모바일 로봇 증강 현실 광학 문자 인식
상세 정보
설명	영상의 크기 및 회전 변화에 불변하는 특징점을 추출하는 알고리즘
핵심 기능	척도 공간 극점 검출 특징점 위치 결정 방향 할당 특징 디스크립터 생성
장점	다양한 영상 변화에 강건함 (조명, 시점, 잡음 등) 비교적 빠른 처리 속도 다양한 분야에 적용 가능
단점	특징점 추출 과정에서 일부 정보 손실 발생 가능성 파라미터 설정에 따라 성능 변화 특허 문제 (초기 버전)
기술적 세부 사항
척도 공간 극점 검출	가우시안 함수를 사용하여 다양한 척도에서 영상을 블러링하고, 차영상을 계산하여 극점을 찾음
특징점 위치 결정	테일러 급수를 사용하여 극점 위치를 정확하게 조정하고, 낮은 대조도나 엣지 위치의 특징점을 제거
방향 할당	특징점 주변 영역의 기울기 방향 히스토그램을 계산하여 특징적인 방향을 할당
특징 디스크립터 생성	특징점 주변 영역을 16x16 픽셀 영역으로 나누고, 각 영역에서 8 방향의 기울기 히스토그램을 계산하여 128차원 특징 벡터 생성

2. SIFT 알고리즘의 단계

SIFT 알고리즘은 이미지에서 특징점을 추출하고, 이를 이용하여 객체를 인식하는 데 사용되는 강력한 방법이다. SIFT 알고리즘은 다음과 같은 주요 단계로 구성된다.

SIFT 알고리즘 단계 요약
단계	주요 내용	역할
스케일 공간 극값 검출	가우시안 차이(DoG) 함수를 사용하여 이미지에서 다양한 크기의 특징점(키포인트) 후보를 찾는다.	이미지 크기 변화에 강인한 특징점 검출
키포인트 위치 보정	후보 키포인트의 위치와 스케일을 보정하고, 낮은 대비 또는 가장자리에 위치하여 불안정한 키포인트를 제거한다.	키포인트 위치 정확도 향상 및 노이즈 제거
방향 할당	각 키포인트에 주된 방향을 할당한다.	이미지 회전에 강인한 특징점 생성
키포인트 기술자 생성	키포인트 주변 영역의 기울기 정보를 기반으로 128차원의 특징 벡터(기술자)를 생성한다.	조명 변화, 시점 변화 등에 강인한 특징 표현

SIFT는 이미지의 크기, 회전, 조명 변화 등에도 강인하게 객체를 인식할 수 있는 특징점을 추출한다. 특히, SIFT 특징 설명자는 균일한 스케일링, 방향, 조명 변화에 불변하고 아핀 왜곡에 부분적으로 불변하기 때문에, 혼란스러운 환경과 부분적인 가림 속에서도 객체를 강력하게 식별할 수 있다.^[8]

각 단계에 대한 자세한 내용은 위키백과의 해당 하위 섹션을 참고할 수 있다.

2. 1. 스케일 공간 극값 검출 (Scale-space Extrema Detection)

SIFT 프레임워크는 먼저 ''키포인트''라고 불리는 관심 지점을 감지한다. 이미지는 서로 다른 스케일에서 가우시안 필터와 합성곱되며, 연속적인 가우시안 블러 이미지의 차이가 계산된다. 키포인트는 여러 스케일에서 발생하는 가우시안 차이(DoG)의 극대/극소로 간주된다. 구체적으로 DoG 이미지

D \left( x, y, \sigma \right)

는 다음과 같다.

:

D \left( x, y, \sigma \right) = L \left( x, y, k_i\sigma \right) - L \left( x, y, k_j\sigma \right)

여기서

L \left( x, y, k\sigma \right)

는 원본 이미지

I \left( x, y \right)

와 스케일

k\sigma

에서 가우시안 블러

G \left( x, y, k\sigma \right)

의 합성곱이다. 즉,

:

L \left( x, y, k\sigma \right) = G \left( x, y, k\sigma \right) * I \left( x, y \right)

따라서

k_i\sigma

와

k_j\sigma

사이의 DoG 이미지는 단순히

k_i\sigma

와

k_j\sigma

스케일에서 가우시안 블러 처리된 이미지의 차이이다. SIFT 알고리즘에서 스케일 공간 극값 감지를 위해 이미지는 먼저 여러 스케일에서 가우시안 블러와 합성곱된다. 합성곱된 이미지는 옥타브(한 옥타브는

\sigma

값을 두 배로 하는 것에 해당)로 그룹화되며,

k_i

의 값은 옥타브당 고정된 수의 합성곱된 이미지를 얻도록 선택된다. 그런 다음 가우시안 차이 이미지는 옥타브당 인접한 가우시안 블러 처리된 이미지에서 가져온다.

DoG 이미지가 얻어지면 키포인트는 여러 스케일에서 DoG 이미지의 지역 최소/최대로 식별된다. 이는 DoG 이미지의 각 픽셀을 동일한 스케일의 8개 이웃과 각 인접 스케일의 9개 해당 이웃 픽셀과 비교하여 수행된다. 픽셀 값이 비교된 모든 픽셀 중에서 최대 또는 최소이면 후보 키포인트로 선택된다.

이 키포인트 감지 단계는 린데베르크(Lindeberg)가 개발한 블롭 감지 방법의 변형으로, 스케일 정규화 라플라시안의 스케일 공간 극값을 감지한다.^[38]^[21] 즉, 이산 스케일 공간 볼륨에서 가장 가까운 26개 이웃과의 비교를 통해 공간과 스케일 모두에 대해 지역 극값인 점을 감지한다. 가우시안 차이 연산자는 피라미드의 암시적 정규화와 함께 라플라시안에 대한 근사치로 볼 수 있으며, 이는 스케일 정규화 라플라시안의 이산 근사치를 구성한다.^[22]

2. 2. 키포인트 위치 보정 (Keypoint Localization)

스케일 공간 극대점을 감지한 후(가장 위에 있는 이미지에 위치가 표시됨) SIFT 알고리즘은 저대비 키포인트를 버리고(나머지 점들은 중간 이미지에 표시됨) 가장자리에 위치한 키포인트를 필터링합니다. 결과 키포인트 집합은 마지막 이미지에 표시됩니다.

스케일 공간 극대점 감지 단계에서 생성된 키포인트 후보 중 일부는 불안정할 수 있으므로, 다음 단계에서는 인접 데이터에 대한 정밀한 적합을 통해 정확한 위치, 스케일 및 주 곡률의 비율을 계산한다. 이 정보를 바탕으로 노이즈에 민감한 저대비점이나 가장자리를 따라 제대로 국지화되지 않은 점을 제거하여 안정성을 높인다.
키포인트 위치 보정각 후보 키포인트의 정확한 위치는 인접 데이터의 보간법을 사용하여 결정된다. 초기에는 각 키포인트를 후보 키포인트의 위치와 크기에 배치했지만,^[8] 새로운 접근 방식은 극점의 보간된 위치를 계산하여 일치 및 안정성을 크게 향상시킨다.^[10]

보간은 후보 키포인트를 원점으로 하는 차이 가우시안 스케일 공간 함수 D(x, y, σ)^영어의 2차 테일러 급수를 사용하여 수행된다.

:^T\textbf{x} + \frac{1}{2}\textbf{x}^T \frac{\partial^2 D}{\partial \textbf{x}^2} \textbf{x}}}

여기서 D와 그 도함수는 후보 키포인트에서 평가되며, 는 이 지점으로부터의 오프셋이다. 극점의 위치

\hat{\textbf{x

^영어}}는 이 함수를 에 대해 미분하고 0으로 설정하여 결정된다.

오프셋

\hat{\textbf{x

^영어}}가 임의의 차원에서 보다 크면, 이는 극점이 다른 후보 키포인트에 더 가깝다는 것을 의미한다. 이 경우 후보 키포인트를 변경하고 해당 지점을 중심으로 보간을 수행한다. 그렇지 않으면 오프셋을 후보 키포인트에 추가하여 극점 위치에 대한 보간된 추정치를 얻는다.
낮은 대비 특징점 제거낮은 대비를 가진 특징점을 제거하기 위해 2차 테일러 전개 D(x)^영어의 값을 오프셋

\hat{\textbf{x

^영어}}에서 계산한다. 이 값이 0.03보다 작으면 후보 특징점은 제거된다. 그렇지 않으면 최종 스케일-공간 위치 }}와 함께 유지되며, 여기서 는 특징점의 원래 위치이다.
가장자리 반응 제거DoG 함수는 잡음에 강건하지만, 가장자리에서 강한 반응을 보여 위치가 잘못 결정될 수 있다. 따라서 안정성을 높이기 위해 가장자리 반응이 높은 키포인트를 제거해야 한다.

DoG 함수에서 잘 정의되지 않은 피크의 경우, 가장자리를 가로지르는 주곡률이 가장자리를 따라가는 주곡률보다 훨씬 클 것이다. 이러한 주곡률은 2차 헤시안 행렬 '''H'''의 고유값과 고유벡터를 통해 계산할 수 있다.

:{{lang|en|

\textbf{H} =  \begin{bmatrix}D_{xx} & D_{xy} \\D_{xy} & D_{yy}\end{bmatrix}

}}

'''H'''의 고유값은 D의 주곡률에 비례한다. 두 고유값의 비율을 r = α/β^영어 (α^영어는 더 큰 값, β^영어는 더 작은 값)라고 할 때, R = Tr(H)^2 / Det(H) = (r+1)^2/r^영어 임을 알 수 있다. 이 값은 고유값의 비율에만 의존하며, 고유값이 서로 같을 때 최소가 된다.

따라서 두 고유값의 절대 차이가 클수록, 즉 D의 두 주곡률의 절대 차이가 클수록 R의 값이 커진다. 결과적으로, 어떤 임계 고유값 비율

r_{\text{th

^영어}}에 대해, 후보 키포인트에 대한 R이

(r_{\text{th

^영어 + 1)^2/r_{\text{th}}}}보다 크면 해당 키포인트는 위치가 잘못 지정된 것이므로 거부된다. 새로운 접근 방식에서는

r_{\text{th

^영어 = 10}}을 사용한다.^[10]

이 처리 단계는 해리스 연산자의 코너 검출에 대한 해당 접근 방식을 차용한 것이다. 주요 차이점은 임계값 설정을 위한 척도가 구조 텐서 대신 헤시안 행렬에서 계산된다는 점이다.

2. 3. 방향 할당 (Orientation Assignment)

이 단계에서는 각 키포인트에 지역 이미지 기울기 방향을 기반으로 하나 이상의 방향을 할당한다. 이는 키포인트 설명자가 이 방향을 기준으로 표현될 수 있어 이미지 회전에 대한 불변성을 달성하는 핵심 단계이다.^[10]

먼저, 모든 계산이 스케일 불변 방식으로 수행되도록 키포인트의 스케일

\sigma

에서 가우시안 평활 처리된 이미지

L \left( x, y, \sigma \right)

가 사용된다. 스케일

\sigma

의 이미지 샘플

L \left( x, y \right)

에 대해 기울기 크기

m \left( x, y \right)

와 방향

\theta \left( x, y \right)

는 픽셀 차이를 사용하여 미리 계산된다.

:

m \left( x, y \right) = \sqrt{\left( L \left( x+1, y \right) - L \left( x-1, y \right) \right)^2 + \left( L \left( x, y+1 \right) - L \left( x, y-1 \right) \right)^2}

:

\theta \left( x, y \right) = \mathrm{atan2}\left(L \left( x, y+1 \right) - L \left( x, y-1 \right), L \left( x+1, y \right) - L \left( x-1, y \right) \right)

기울기에 대한 크기와 방향 계산은 가우시안 블러 처리된 이미지 L에서 키포인트 주변의 인접 영역에 있는 모든 픽셀에 대해 수행된다. 36개의 빈(bin)을 가진 방향 히스토그램이 형성되며, 각 빈은 10도를 커버한다. 인접 창의 각 샘플은 기울기 크기와 키포인트의 스케일의 1.5배인

\sigma

를 가진 가우시안 가중 원형 창에 의해 가중되어 히스토그램 빈에 추가된다. 이 히스토그램의 피크는 지배적인 방향에 해당한다. 히스토그램이 채워지면, 가장 높은 피크와 가장 높은 피크의 80% 이내인 지역 피크에 해당하는 방향이 키포인트에 할당된다. 여러 방향이 할당되는 경우, 각 추가 방향에 대해 원래 키포인트와 동일한 위치와 스케일을 갖는 추가 키포인트가 생성된다.

2. 4. 키포인트 기술자 생성 (Keypoint Descriptor)

이전 단계에서 특정 스케일에서 특징점 위치를 찾고 방향을 할당하여 이미지 위치, 스케일, 회전에 대한 불변성을 확보했다. 이제 각 특징점에 대한 기술자(descriptor) 벡터를 계산하여 조명, 3D 시점 등의 변동에 부분적으로 불변하도록 한다. 이 단계는 특징점의 스케일에 가장 가까운 이미지에서 수행된다.

먼저 4x4 픽셀 이웃에서 8개의 빈(bin)을 가진 일련의 방향 히스토그램을 생성한다. 이 히스토그램은 특징점 주변 16x16 영역 샘플의 크기와 방향 값에서 계산되며, 각 히스토그램은 원래 이웃 영역의 4x4 하위 영역 샘플을 포함한다. 이미지 기울기 크기와 방향은 특징점 위치 주변에서 샘플링되며, 특징점의 스케일을 사용하여 이미지에 대한 가우시안 블러 수준을 선택한다. 방향 불변성을 달성하기 위해 기술자의 좌표와 기울기 방향은 특징점 방향을 기준으로 회전한다. 크기는 기술자 창 너비의 1/2인

\sigma

를 갖는 가우시안 함수로 추가 가중된다.

그런 다음 기술자는 이러한 히스토그램의 모든 값의 벡터가 된다. 16개의 히스토그램(4 x 4)이 있고 각 히스토그램에 8개의 빈이 있으므로 벡터는 128개의 요소를 갖는다. 이 벡터는 조명의 아핀 변화에 대한 불변성을 향상시키기 위해 단위 길이로 정규화된다. 비선형 조명의 영향을 줄이기 위해 0.2의 임계값이 적용되고 벡터는 다시 정규화된다. 클램핑이라고도 하는 임계값 처리 프로세스는 비선형 조명 효과가 없을 때에도 일치 결과를 개선할 수 있다.^[2] 0.2의 임계값은 경험적으로 선택되었다.^[2]

128차원의 기술자는 높아 보이지만, 이보다 낮은 차원의 기술자는 다양한 매칭 작업에서 제대로 작동하지 않으며^[10] 근접 이웃을 찾는 데 사용되는 근사 BBF 방법으로 인해 계산 비용은 낮게 유지된다. 더 긴 기술자는 계속해서 더 나은 성능을 보이지만 큰 차이는 아니며 왜곡 및 폐색에 대한 민감도가 증가할 위험이 있다. 또한 시점 변화가 최대 50도까지 특징 매칭 정확도가 50% 이상인 것으로 나타났다. 따라서 SIFT 기술자는 사소한 아핀 변화에 불변하다. SIFT 기술자의 독창성을 테스트하기 위해 테스트 데이터베이스의 특징점 수를 다양하게 변경하여 매칭 정확도를 측정했으며, 데이터베이스 크기가 매우 큰 경우 매칭 정확도가 약간만 감소하는 것으로 나타났으므로 SIFT 특징이 매우 독창적임을 나타낸다.

3. SIFT의 특징 및 장점

SIFT^[9]는 균일한 스케일링, 방향, 조명 변화에 불변하고 아핀 왜곡에 부분적으로 불변하기 때문에, 혼란스러운 환경과 부분적인 가림 속에서도 객체를 강력하게 식별할 수 있다.^[8] SIFT 설명자는 ''수용 필드''^[39]^[40]^[43]^[44] 측정을 기반으로 하며, 이를 통해 ''국소적 스케일 불변 기준 프레임''^[42]^[41]이 ''국소적 스케일 선택''에 의해 설정된다.^[38]^[21]^[41]

SIFT 특징은 지역적이며 특정 관심 지점에서 객체의 외관을 기반으로 하며 이미지 스케일과 회전에 불변하다. 또한 조명 변화, 노이즈 및 작은 시점 변화에 강하다. 이러한 특성 외에도 매우 독특하고 추출하기가 비교적 쉬우며 불일치 확률이 낮아 객체를 올바르게 식별할 수 있다. SIFT 특징 집합에 의한 객체 설명은 부분적 가림에도 강하다. 객체의 SIFT 특징이 3개만 있어도 위치와 자세를 계산하기에 충분하다.

SIFT의 특징 및 장점
문제	기술	장점
키 위치/스케일/회전	가우시안 차이 / 스케일 공간 피라미드 / 방향 할당	정확성, 안정성, 스케일 및 회전 불변성
기하학적 왜곡	국소 이미지 방향 평면의 블러링/재표본 추출	아핀 불변성
인덱싱 및 매칭	최근접 이웃 / 최선 빈도 우선 탐색	효율성/속도
클러스터 식별	호프 변환 투표	신뢰할 수 있는 자세 모델
모델 검증/이상치 감지	선형 최소 제곱	더 적은 매칭으로 더 나은 오류 허용 오차
가설 수용	베이즈 확률 분석	신뢰성

4. SIFT의 응용 분야

SIFT는 기본적으로 이미지 간의 일치하는 위치 식별이 필요한 모든 작업에 적용될 수 있다. 주요 응용 분야는 다음과 같다.

SIFT의 응용 분야
응용 분야	설명
객체 인식	이미지 내에서 위치, 크기, 회전에 영향을 받지 않고, 아핀 변환과 조명 변화에도 강인한 특징을 찾아 객체를 인식한다.
파노라마 생성	여러 이미지를 자동으로 연결하여 파노라마를 만든다. 이미지 순서, 방향, 크기, 조명 변화에 영향을 덜 받는다.
로봇 위치 추정 및 지도 작성	삼안 스테레오 시스템을 사용하여 특징점 위치의 3D 추정치를 결정하고, 로봇의 위치 파악 및 지도 작성에 활용한다.
3D 장면 모델링	여러 각도에서 촬영한 2D 이미지를 사용하여 3D 모델을 구축하고, 카메라 포즈 및 보정 매개변수를 복구한다.
뇌 영상 분석	3D 자기 공명 영상(MRI)으로 촬영된 인간의 뇌를 분석하고, 알츠하이머병과 같은 질병을 분류한다.

SIFT는 2D 이미지의 특정 객체 범주 인식, 3D 재구성, 동작 추적 및 분할, 에피폴라 보정과 같은 응용 분야에도 사용된다.^[36] 동작 인식 분야에서는 영상 시퀀스의 2+1차원 시공간 데이터에 대한 SIFT 기술자 확장이 연구되었다.^[34]^[31]^[32]^[33] SIFT의 3D 확장도 진정한 3D 객체 인식 및 검색에 대해 평가되었다.^[34]^[5]

4. 1. 객체 인식 (Object Recognition)

SIFT는 이미지 내에서 위치, 크기, 회전에 영향을 받지 않고, 아핀 변환(크기, 회전, 전단, 위치 변화)과 조명 변화에도 강인한 특징을 찾아 객체 인식에 활용된다. 이 과정은 다음과 같다.

먼저, 입력 이미지에서 SIFT 알고리즘을 사용하여 SIFT 특징을 추출한다.
추출된 특징은 훈련 이미지에서 얻은 SIFT 특징 데이터베이스와 비교한다. 이때, 유클리드 거리 기반의 가장 가까운 이웃(nearest neighbor) 접근 방식을 사용한다.
견고성을 높이기 위해 가장 가까운 이웃 거리와 두 번째로 가까운 이웃 거리의 비율이 0.8보다 크면 해당 키포인트는 매칭에서 제외한다. 이렇게 하면 배경 잡음으로 인한 잘못된 매칭을 줄일 수 있다.
유클리드 거리 기반의 가장 가까운 이웃을 찾는 것은 계산 비용이 많이 들기 때문에, 최상의 빈 우선(best-bin-first) 알고리즘이라는 근사 알고리즘을 사용한다.^[12] 이 알고리즘은 높은 확률로 가장 가까운 이웃을 빠르게 찾아주며, 95%의 시간 동안 1000배의 속도 향상을 제공한다.
거리 비율 테스트를 통해 배경 잡음으로 인한 잘못된 매칭을 제거하지만, 여전히 다른 객체에 속하는 매칭이 존재할 수 있다. 따라서 동일한 객체에 속하는 특징들을 클러스터링하고, 클러스터링 과정에서 제외된 매칭을 제거하여 객체 식별의 견고성을 높인다. 이 과정은 Hough 변환을 사용하여 수행된다. Hough 변환은 동일한 객체 포즈에 대해 투표하는 특징들의 클러스터를 식별한다. 특징 클러스터가 동일한 객체 포즈에 대해 투표하는 것으로 확인되면, 단일 특징만 사용할 때보다 정확도가 훨씬 높아진다. 각 키포인트는 위치, 크기, 방향과 일치하는 객체 포즈 집합에 대해 투표하고, 최소 3개의 투표를 얻은 ''빈(bin)''이 후보 객체/포즈로 식별된다.
각 후보 클러스터에 대해 훈련 이미지를 입력 이미지와 관련된 최적의 아핀 투영 매개변수에 대한 최소 제곱 해를 구한다. 이 매개변수를 통해 키포인트를 투영했을 때 Hough 변환 빈의 매개변수에 사용된 오류 범위의 절반 이내에 있으면 키포인트 매칭을 유지한다. 빈에 대한 이상치를 제거한 후 3개 미만의 점이 남으면 객체 매칭을 거부한다. 최소 제곱 적합은 더 이상 거부가 발생하지 않을 때까지 반복된다. 아핀 모델은 3D 객체에 대해 더 이상 정확하지 않기 때문에 이 방법은 3D 객체 인식보다 평면 표면 인식에 더 적합하다.
한 연구에서는 다중 객체 감지를 위해 SIFT 설명자를 사용하는 새로운 접근 방식을 제안했으며, 이 접근 방식은 항공 및 위성 이미지에서 테스트되었다.^[36]

SIFT 특징은 이미지 간의 일치하는 위치를 식별해야 하는 다양한 작업에 적용될 수 있다. 예를 들어, 2D 이미지 내 특정 객체 범주 인식, 3D 재구성, 동작 추적 및 분할, 로봇 위치 추정, 이미지 파노라마 스티칭, 에피폴라 보정 등에 활용된다.

4. 2. 파노라마 생성 (Panorama Stitching)

SIFT 특징 매칭은 여러 이미지를 자동으로 연결하여 파노라마를 만드는 이미지 스티칭에 사용될 수 있다. 입력 이미지에서 추출된 SIFT 특징은 서로 비교되어 각 특징에 대해 가장 가까운 ''k''개의 이웃을 찾는다. 이를 통해 각 이미지에 대해 ''m''개의 잠재적 매칭 이미지를 찾을 수 있다.

그런 다음 RANSAC 알고리즘을 사용하여 이미지 쌍 간의 호모그래피를 계산하고, 확률적 모델을 통해 검증한다. 입력 이미지에 대한 제약 조건이 없기 때문에, 그래프 검색을 통해 이미지 매칭의 연결 요소를 찾아 각 연결 요소가 하나의 파노라마에 해당하도록 한다.

마지막으로 각 연결 요소에 대해 번들 조정을 수행하여 카메라 매개변수를 구하고, 멀티 밴드 블렌딩을 사용하여 파노라마를 렌더링한다. SIFT에서 영감을 받은 객체 인식 접근 방식 덕분에, 이 시스템은 이미지의 순서, 방향, 크기, 조명 변화에 영향을 덜 받는다. 입력 이미지에 여러 파노라마와 노이즈 이미지(합성 이미지의 일부가 아닌 이미지)가 섞여 있어도, 파노라마 시퀀스를 인식하여 결과로 출력할 수 있다.^[29]

4. 3. 로봇 위치 추정 및 지도 작성 (Robot Localization and Mapping)

이 응용 분야에서^[28] 삼안 스테레오 시스템을 사용하여 주요 특징점 위치에 대한 3D 추정치를 결정한다. 주요 특징점은 3개의 이미지 모두에 일관된 시차가 있는 경우에만 사용되며, 이로 인해 이상치가 거의 발생하지 않는다. 로봇이 움직이면서 기존 3D 맵에 대한 특징점 매칭을 사용하여 자체 위치를 파악하고, 칼만 필터를 사용하여 3D 위치를 업데이트하면서 맵에 특징점을 점진적으로 추가한다. 이는 알려지지 않은 환경에서 로봇의 위치를 파악하는 문제에 대한 견고하고 정확한 솔루션을 제공한다. 최근의 3D 솔버는 세 개의 주요 특징점으로부터 삼안 기하학을 해결하고^[3] 두 개의 주요 특징점으로부터 절대 자세를 계산하기 위해 주요 특징점 방향을 활용한다.^[4] 이는 척도 불변 특징 변환(SIFT)에서 종종 간과되지만 유용한 측정값이다. 이러한 방향 측정값은 필요한 대응점의 수를 줄여 견고성을 기하급수적으로 증가시킨다.

4. 4. 3D 장면 모델링 (3D Scene Modeling)

SIFT 매칭은 여러 각도에서 촬영한 장면 또는 객체의 여러 2D 이미지에 대해 수행된다. 이는 본질 행렬 또는 삼중 초점 텐서에서 초기화된 번들 조정과 함께 사용하여 뷰 장면의 희소 3D 모델을 구축하고 동시에 카메라 포즈 및 보정 매개변수를 복구하는 데 사용된다.^[30] 그런 다음 가상 객체의 위치, 방향 및 크기는 복구된 모델의 좌표 프레임을 기준으로 정의된다. 온라인 매치 무빙의 경우 SIFT 특징은 현재 비디오 프레임에서 다시 추출되어 이미 세계 모델에 대해 계산된 특징과 일치하여 2D-3D 대응 세트를 생성한다. 이러한 대응 관계는 가상 투영 및 최종 렌더링을 위한 현재 카메라 포즈를 계산하는 데 사용된다. 가상 투영의 지터를 줄이기 위해 정규화 기술이 사용된다.^[30] SIFT 방향의 사용은 이 프로세스의 견고성을 높이는 데에도 사용되었다.^[3]^[4]

4. 5. 뇌 영상 분석 (Analyzing the Human Brain in 3D Magnetic Resonance Images)

특징 기반 형태계측학 (FBM) 기술^[37]은 가우시안 스케일 공간의 차이에서 극값을 사용하여 3D 자기 공명 영상 (MRI)으로 촬영된 인간의 뇌를 분석하고 분류한다. FBM은 이미지의 기하학적 구조와 집단 레이블(예: 건강한 피험자와 알츠하이머병 (AD) 환자)에 따라 이미지를 독립적인 특징의 콜라주로 확률적으로 모델링한다. 특징은 먼저 4D 가우시안 스케일 공간의 차이에서 개별 이미지로 추출된 다음, 일련의 이미지에서 외형, 기하학적 구조 및 그룹 공존 통계 측면에서 모델링된다. FBM은 약 200개의 인간 뇌 부피 MRI 세트를 사용하여 AD 분석에서 검증되었으며, 뇌에서 AD의 확립된 지표를 자동으로 식별하고 새로운 이미지에서 경도 AD를 80%의 비율로 분류했다.^[37]

5. SIFT와 다른 특징 기술 방법과의 비교

SIFT^[9]는 균일한 스케일링, 방향, 조명 변화에 불변하고 아핀 왜곡에 부분적으로 불변하기 때문에, 혼란스러운 환경과 부분적인 가림 속에서도 객체를 강력하게 식별할 수 있다.^[8] SIFT 설명자는 ''수용 필드''^[39]^[40]^[43]^[44] 측정을 기반으로 하며, ''국소적 스케일 불변 기준 프레임''^[42]^[41]이 ''국소적 스케일 선택''에 의해 설정된다.^[38]^[21]^[41]

SIFT를 포함한 여러 국소 기술자(descriptor)의 성능 평가에 대한 광범위한 연구^[18] 결과는 다음과 같다.

SIFT 및 SIFT와 유사한 GLOH 특징은 50도의 아핀 변환에 대해 가장 높은 일치 정확도 (재현율)를 보인다.
PCA-SIFT (SIFT 기술자에 적용된 주성분 분석), GLOH 및 SIFT 특징은 가장 높은 독창성을 제공한다.
SIFT 기반 기술자는 텍스처 및 구조화된 장면 모두에서 다른 현대적인 국소 기술자보다 성능이 뛰어나다.
2~2.5 범위의 스케일 변화 및 30~45도 범위의 이미지 회전에 대해 SIFT 및 SIFT 기반 기술자는 다른 현대적인 국소 기술자보다 성능이 뛰어나다.
흐림 효과가 도입되면 모든 국소 기술자, 특히 형상 컨텍스트와 같이 가장자리에 기반한 기술자에 영향을 미치지만, GLOH, PCA-SIFT 및 SIFT는 다른 기술자보다 여전히 더 나은 성능을 보였다.

SIFT 기반 기술자가 가장 강력하고 독창적이므로 특징 일치에 가장 적합하다. 다른 연구에서는 속도가 중요하지 않을 때 SIFT가 SURF보다 성능이 뛰어나다고 결론 내린다.^[6]^[25] 이산화 효과를 무시하면 SIFT의 순수한 이미지 기술자가 SURF의 순수한 이미지 기술자보다 훨씬 우수하며, SURF의 순수한 관심점 검출기를 뒷받침하는 헤시안 행렬식의 스케일 공간 극값은 SIFT의 관심점 검출기가 수치적으로 근사하는 라플라시안의 스케일 공간 극값에 비해 훨씬 더 나은 관심점이다.^[6]

SIFT 기술자에 의한 이미지 매칭 성능은 헤시안 행렬식의 스케일 공간 극값이나, 일반화된 스케일 공간 관심점의 보다 일반적인 계열을 고려함으로써 더 높은 효율성 점수와 더 낮은 1-정밀도 점수를 달성하는 의미에서 개선될 수 있다.^[6]

최근에는 불규칙한 히스토그램 그리드를 사용하는 기술자의 변형이 제안되어 성능을 크게 향상시켰다.^[26]

SIFT-Rank^[27] 기술자는 각 히스토그램 빈을 해당 순위로 설정하여 표준 SIFT 기술자에서 생성된다. SIFT-Rank 기술자 간의 유클리드 거리는 히스토그램 빈 값의 임의의 단조 변화에 불변하며, 스피어만 순위 상관 계수와 관련이 있다.

척도 불변 객체 인식의 대체 방법은 다음과 같다.

RIFT^[14]: SIFT의 회전 불변 일반화. RIFT 디스크립터는 동일한 폭의 동심원을 사용하고 각 링 내에서 기울기 방향 히스토그램을 계산하여 구성된다.
RootSIFT^[45]: 디스크립터 정규화를 수정하는 SIFT의 변형.
G-RIF^[15]: 일반화된 로버스트 불변 특징. 가장자리 방향, 가장자리 밀도 및 색상 정보를 지각적 정보와 공간적 인코딩을 결합하여 통합된 형태로 인코딩하는 일반적인 컨텍스트 디스크립터이다.
PCA-SIFT^[17] 및 GLOH^[18]: SIFT의 변형. PCA-SIFT 디스크립터는 지원 영역 내에서 계산된 x 및 y 방향의 이미지 기울기 벡터이다.
Gauss-SIFT^[6]: SIFT에서 순수한 이미지 디스크립터의 모든 이미지 측정을 가우시안 미분 응답에 의해 수행하여 정의된 순수한 이미지 디스크립터이다.
KAZE 및 A-KAZE ''(KAZE 특징 및 가속-KAZE 특징)''^[7]: SIFT 및 SURF에 비해 더 나은 성능을 발휘하는 새로운 2D 특징 감지 및 설명 방법.

5. 1. SURF (Speeded-Up Robust Features)

SURF는^[16] 반복성, 차별성, 견고성 면에서 기존의 방법들을 능가하거나 근사한다고 알려진 고성능 척도 및 회전 불변 관심점 감지기/디스크립터이다. SURF는 이미지 컨볼루션에 대한 적분 영상을 사용하여 계산 시간을 단축하고, 기존의 감지기와 디스크립터의 장점을 활용한다. (감지기에는 빠른 헤시안 행렬 기반 측정을 사용하고, 분포 기반 디스크립터를 사용한다.)

SURF는 관심점 주변의 Haar 웨이블릿 응답 분포를 설명한다. 적분 이미지는 속도를 높이는 데 사용되며, 64차원만 사용하여 특징 계산 및 매칭 시간을 줄인다. 라플라시안 부호는 인덱싱 단계에서 활용되어 매칭 속도와 디스크립터의 견고성을 향상시킨다.

참조

_[1] 논문 Hand gesture recognition using multi-scale colour features, hierarchical models and particle filtering http://kth.diva-port[...] Proceedings of the Fifth IEEE International Conference on Automatic Face and Gesture Recognition, Washington, DC, USA, 21–21 May 2002, pages 423-428
_[2] 간행물 Automatic thresholding of SIFT descriptors https://arxiv.org/ab[...] Image Processing (ICIP), 2016 IEEE International Conference on, pp. 291-295. IEEE, 2016.
_[3] arXiv Trifocal Relative Pose from Lines at Points and its Efficient Solution 2019-03-23
_[4] 서적 Computer Vision – ECCV 2012 https://rfabbri.gith[...] 2012
_[5] 학술지 A Comparison of 3D Interest Point Descriptors with Application to Airport Baggage Object Detection in Complex CT Imagery
_[6] 학술지 Image Matching Using Generalized Scale-Space Interest Points 2015-05-01
_[7] 웹사이트 kaze http://www.robesafe.[...]
_[8] 학회자료 Object recognition from local scale-invariant features http://www.cs.ubc.ca[...]
_[9] 특허 Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image 2004-03-23
_[10] 학술지 Distinctive Image Features from Scale-Invariant Keypoints http://citeseer.ist.[...]
_[11] 보고서 A Theory of Object Recognition: Computations and Circuits in the Feedforward Path of the Ventral Stream in Primate Visual Cortex http://cbcl.mit.edu/[...] Computer Science and Artificial Intelligence Laboratory Technical Report 2005-12-19
_[12] 학회자료 Shape indexing using approximate nearest-neighbour search in high-dimensional spaces http://www.cs.ubc.ca[...]
_[13] 학회자료 Local feature view clustering for 3D object recognition http://www.cis.rit.e[...]
_[14] 학회자료 Semi-Local Affine Parts for Object Recognition http://hal.archives-[...]
_[15] 학회자료 Object Recognition Using a Generalized Robust Invariant Feature and Gestalt’s Law of Proximity and Similarity
_[16] 학회자료 SURF: Speeded Up Robust Features http://www.vision.ee[...] 2006-05
_[17] 학회자료 PCA-SIFT: A More Distinctive Representation for Local Image Descriptors https://www.cs.cmu.e[...]
_[18] 학술지 A performance evaluation of local descriptors http://research.micr[...]
_[19] 학회자료 Pose tracking from natural features on mobile phones http://mi.eng.cam.ac[...]
_[20] 학회자료 What is That? Object Recognition from Natural Features on a Mobile Phone http://citeseerx.ist[...]
_[21] 학술지 Feature detection with automatic scale selection http://kth.diva-port[...]
_[22] 학술지 Scale invariant feature transform
_[23] 서적 Scale Space Methods in Computer Vision http://kth.diva-port[...]
_[24] 웹사이트 TU-chemnitz.de http://www.tu-chemni[...]
_[25] 문서 An Analysis and Implementation of the SURF Method, and its Comparison to SIFT http://www.ipol.im/p[...] Image Processing On Line
_[26] 학회자료 Scale Invariant Feature Transform with Irregular Orientation Histogram Binning http://www.mpi-inf.m[...] Springer 2009-04-08
_[27] 학회자료 SIFT-Rank: Ordinal Descriptors for Invariant Feature Correspondence http://www.matthewto[...]
_[28] 학회자료 Vision-based mobile robot localization and mapping using scale-invariant features http://citeseer.ist.[...]
_[29] 학회자료 Recognising Panoramas http://graphics.cs.c[...]
_[30] 간행물 What and where: 3D object recognition with accurate pose Toward Category-Level Object Recognition, (Springer-Verlag, 2006)
_[31] 학회자료 Local descriptors for spatio-temporal recognition http://kth.diva-port[...]
_[32] 학술지 Local velocity-adapted motion events for spatio-temporal recognition http://kth.diva-port[...]
_[33] 학회자료 A 3-dimensional sift descriptor and its application to action recognition
_[34] 학회자료 Object Recognition using 3D SIFT in Complex CT Volumes http://www.durham.ac[...]
_[35] 학회자료 Unsupervised Learning of Human Action Categories Using Spatial-Temporal Words http://vision.cs.pri[...] 2008-08-20
_[36] 논문 Urban Area and Building Detection Using SIFT Keypoints and Graph Theory
_[37] 논문 Feature-based Morphometry: Discovering Group-related Anatomical Patterns http://www.matthewto[...]
_[38] 서적 Lindeberg, T., Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994 http://www.csc.kth.s[...]
_[39] 간행물 Representation of local geometry in the visual system https://web.archive.[...] 1987
_[40] 간행물 Generic neighbourhood operators 1992
_[41] 간행물 Scale selection http://kth.diva-port[...] Computer Vision: A Reference Guide, (K. Ikeuchi, Editor), Springer 2014
_[42] 논문 Invariance of visual operations at the level of receptive fields 2013-07-19
_[43] 논문 A computational theory of visual receptive fields 2013-12
_[44] 서적 Generalized Axiomatic Scale-Space Theory http://urn.kb.se/res[...] 2013
_[45] 간행물 Three things everyone should know to improve object retrieval

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com