컴퓨터 스테레오 비전

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

컴퓨터 스테레오 비전은 인간의 양안 시차와 유사하게, 두 대의 카메라로 촬영한 장면의 서로 다른 뷰를 비교하여 3차원 깊이 정보를 얻는 기술이다. 두 이미지를 비교하기 위해 왜곡 보정, 이미지 정류 등의 전처리 과정을 거치며, 특징점 추출 및 정합, 시차 계산을 통해 깊이 정보를 계산한다. 수동 및 능동 스테레오 비전으로 분류되며, 로봇 공학, 3차원 디스플레이, 항공 측량 등 다양한 분야에 응용된다. 최소 자승법을 사용하여 입체 영상의 정보 내용을 측정하며, NP-완전 문제로 인해 효율적인 구현 방법 연구가 진행 중이다.

더 읽어볼만한 페이지

컴퓨터 비전 - 합성곱 신경망
합성곱 신경망(CNN)은 이미지, 영상 등 시각 데이터 처리에 특화된 인공 신경망으로, 합성곱층, 풀링층, 완전 연결층으로 구성되어 특징 추출, 차원 축소, 최종 분류 또는 예측을 수행하며 이미지 인식, 영상 분석, 자연어 처리 등 다양한 분야에 응용된다.
컴퓨터 비전 - 광학 흐름
광학 흐름은 비디오나 이미지에서 보이는 객체, 표면, 엣지의 움직임 패턴을 나타내며, 움직임 예측, 비디오 압축, 장면 구조 추정, 로봇 내비게이션 등 다양한 분야에 활용되는 중요한 기술이다.

컴퓨터 스테레오 비전
컴퓨터 스테레오 비전 개요
스테레오 비전 기하 구조
정의	두 개 이상의 카메라를 사용하여 3차원 정보를 추출하는 컴퓨터 비전 기술
목표	이미지에서 깊이 정보를 추출하여 3차원 장면 재구성
응용 분야	로봇 공학 자율 주행 3D 모델링 의료 영상 처리 지도 제작 감시 시스템
작동 원리
기본 원리	인간의 양안 시차를 모방하여 깊이 정보를 추정
카메라 설정	두 대 이상의 카메라를 수평으로 배치 각 카메라의 위치와 방향을 정확하게 보정
이미지 정합 (Correspondence)	각 이미지에서 동일한 특징점 또는 영역을 찾음 특징점 기반 방법 (예: SIFT, SURF) 영역 기반 방법 (예: 블록 정합)
시차 (Disparity) 계산	정합된 특징점 또는 영역 간의 위치 차이를 계산 시차는 카메라 간의 거리와 초점 거리에 따라 깊이 정보로 변환
깊이 지도 (Depth Map) 생성	각 픽셀에 대한 깊이 값을 나타내는 이미지 생성
스테레오 정합 알고리즘
블록 정합 (Block Matching)	기준 이미지의 블록과 다른 이미지의 블록을 비교하여 가장 유사한 블록을 찾음 단순하지만 노이즈에 민감
그래프 컷 (Graph Cut)	에너지 함수를 최소화하는 방식으로 정합 문제를 해결 높은 정확도를 제공하지만 계산 비용이 높음
동적 프로그래밍 (Dynamic Programming)	이미지의 스캔라인을 따라 최적의 정합 경로를 찾음 효율적이지만 스캔라인 간의 일관성을 고려하지 않음
믿음 전파 (Belief Propagation)	확률적인 메시지 전달을 통해 정합 문제를 해결 글로벌 최적해에 가까운 결과를 제공
과제 및 도전 과제
조명 변화	카메라 간의 조명 조건 차이로 인한 정합 오류
반사 및 투명 객체	표면의 반사 또는 투명성으로 인한 특징점 추출의 어려움
텍스처가 없는 영역	특징점 또는 영역 기반 정합의 어려움
폐색 (Occlusion)	한 카메라에서는 보이는 영역이 다른 카메라에서는 가려지는 문제
계산 비용	고해상도 이미지 또는 실시간 응용 분야에서의 계산 부담
기술 동향
딥 러닝 기반 스테레오 비전	Convolutional Neural Network (CNN)을 사용하여 정합 정확도 향상 End-to-End 학습을 통한 최적화
센서 융합	스테레오 카메라와 다른 센서 (LiDAR, 레이더)를 결합하여 성능 향상 다양한 환경 조건에서 안정적인 깊이 정보 획득
실시간 스테레오 비전 시스템	임베디드 시스템 또는 GPU 가속을 통한 실시간 처리 자율 주행 및 로봇 공학 분야에 적용

2. 원리

컴퓨터 스테레오 비전은 기본적으로 두 대 이상의 카메라를 사용하여 3차원 정보를 획득하는 기술이다. 사람의 눈이 두 개(양안시)인 것처럼, 두 대의 카메라를 통해 얻은 이미지를 비교하고 분석하여 깊이 정보를 추출한다.

두 카메라에서 얻은 이미지 상의 동일한 지점(픽셀)은 서로 다른 위치에 나타나는데, 이 위치 차이를 시차(disparity)라고 한다. 시차는 물체까지의 거리에 반비례한다. 즉, 가까운 물체는 시차가 크고, 멀리 있는 물체는 시차가 작다. 이러한 원리를 이용하여, 두 이미지 간의 시차를 계산하고, 이를 통해 각 픽셀에 대한 깊이 정보를 얻어 시차 맵을 생성한다.

두 이미지에서 동일한 지점을 찾는 과정, 즉 대응 문제를 해결하는 것이 스테레오 비전의 핵심 과제 중 하나이다.

스테레오 비전은 능동 스테레오 비전과 수동 스테레오 비전으로 나눌 수 있다. 능동 스테레오 비전은 레이저나 구조광과 같은 광원을 사용하여 스테레오 매칭 문제를 단순화하는 반면, 수동 스테레오 비전은 주변 환경의 빛만을 이용한다.

색상의 유사성을 측정하는 척도는 평활도(Smoothness)이다. 뚜렷한 물체는 소수의 색상을 가진다는 가정하에, 유사한 색상의 픽셀은 여러 객체보다 단일 객체에 속할 가능성이 더 높다는 점을 이용한다. 평활도를 평가하는 방법은 정보 이론에 기반하며, 복셀의 색상이 점들 사이의 거리에 대한 정규 분포에 따라 근처 복셀의 색상에 영향을 미친다는 가정을 사용한다. 평활도에 대한 사전 가정을 기반으로 하는 또 다른 방법은 자기 상관이다. 평활도는 이미지의 고유한 속성이 아니라 세상의 속성이다. 임의의 점들로 구성된 이미지는 평활도를 갖지 않으며, 인접한 점에 대한 추론은 쓸모가 없을 것이다.

2. 1. 이미지 획득

컴퓨터 스테레오 비전에서 이미지 획득은 다음과 같은 과정을 거친다.

전통적인 스테레오 비전은 수평으로 서로 떨어진 두 대의 카메라를 사용하여 인간의 양안 시차와 유사하게 장면의 두 가지 다른 뷰를 얻는다. 이 두 이미지를 비교하여 시차 맵 형태의 상대적인 깊이 정보를 얻는다. 시차 맵은 대응 문제에 해당하는 이미지 점들의 수평 좌표 차이를 인코딩하며, 이 값은 해당 픽셀 위치에서 장면 깊이에 반비례한다.

사람이 두 이미지를 비교하려면 스테레오 장치에서 겹쳐야 하며, 오른쪽 카메라의 이미지는 관찰자의 오른쪽 눈에, 왼쪽 카메라의 이미지는 왼쪽 눈에 표시된다.

컴퓨터 비전 시스템에서는 몇 가지 전처리 단계가 필요하다.^[1]

1. 먼저 이미지를 배럴 왜곡 및 접선 왜곡이 제거되도록 왜곡을 제거한다. 이는 관찰된 이미지가 이상적인 핀홀 카메라의 투영과 일치하는지 확인하는 과정이다.

2. 이미지를 이미지 정류라고 하는 이미지 쌍을 비교할 수 있도록 공통 평면으로 다시 투영한다.

3. 두 이미지를 비교하는 정보 척도를 최소화한다. 이를 통해 두 이미지에서 특징의 위치를 가장 잘 추정하고 시차 맵을 생성한다.

4. 선택적으로 수신된 시차 맵은 3D 점 구름으로 투영된다. 카메라의 투영 매개변수를 활용하여 점 구름을 계산하여 알려진 배율로 측정을 제공할 수 있다.

픽셀은 위치에서 색상을 기록한다. 위치는 픽셀 그리드의 위치 (x, y)와 픽셀까지의 깊이 ''z''로 식별된다.

스테레오 비전은 다른 위치에서 동일한 장면의 두 이미지를 제공한다. 인접 다이어그램에서 점 ''A''의 빛은 ''B''와 ''D''의 핀홀 카메라의 진입점을 통해 ''E''와 ''H''의 이미지 스크린으로 전송된다.

첨부된 다이어그램에서 두 카메라 렌즈 중심 사이의 거리는 ''BD = BC + CD''이다. 다음 삼각형은 유사하다.

''ACB''와 ''BFE''
''ACD''와 ''DGH''

따라서 변위 d는 다음과 같이 계산된다.

:

\begin{align}d &= EF + GH \\&= BF (\frac{EF}{BF} + \frac{GH}{BF})  \\&= BF (\frac{EF}{BF} + \frac{GH}{DG})  \\&= BF (\frac{BC + CD}{AC})  \\&= BF \frac{BD}{AC}  \\&= \frac{k}{z}  \text{, 여기서}\\\end{align}

''k = BD BF''
''z = AC''는 카메라 평면에서 물체까지의 거리이다.

따라서 카메라가 수평이고 이미지 평면이 동일한 평면에 평평하다고 가정하면, 두 이미지에서 동일한 픽셀 사이의 y축 변위는 다음과 같다.

:

d = \frac{k}{z}

여기서 ''k''는 두 카메라 사이의 거리에 렌즈에서 이미지까지의 거리를 곱한 값이다.

두 이미지의 깊이 구성 요소는

z_1

및

z_2

이며, 다음으로 주어진다.

:

z_2(x, y) = \min \left \{v : v = z_1(x, y - \frac{k}{z_1(x, y)})\right \}

:

z_1(x, y) = \min \left \{v : v = z_2(x, y + \frac{k}{z_2(x, y)}) \right \}

2. 2. 전처리

컴퓨터 스테레오 비전 시스템에서는 몇 가지 전처리 단계가 필요하다.^[1]

전통적인 스테레오 비전에서는 인간의 양안시와 마찬가지로, 어떤 광경의 서로 다른 두 시점을 얻기 위해 수평 방향으로 배치된 두 대의 카메라가 사용된다. 이 두 영상을 비교하여 상대적인 깊이 정보를 시차 맵 형태로 얻을 수 있는데, 이는 대응 문제에서 대응하는 화소점의 수평 좌표 차이를 부호화한 것이다. 이 시차 맵의 값은 대응하는 픽셀 위치에서 광경의 깊이에 반비례한다.

사람이 두 영상을 비교하려면 입체시 장치로 겹쳐서 오른쪽 카메라의 영상은 관찰자의 오른쪽 눈에, 왼쪽 카메라의 영상은 왼쪽 눈에 보이게 해야 한다.

이후 다음의 전처리 과정이 필요하다.

두 이미지를 비교하는 정보 척도를 최소화한다. 이를 통해 두 이미지에서 특징의 위치를 가장 잘 추정하고 시차 맵을 생성한다.
선택적으로 수신된 시차 맵은 3D 점 구름으로 투영한다. 카메라의 투영 매개변수를 활용하여 점 구름을 계산하여 알려진 배율로 측정을 제공할 수 있다.

2. 2. 1. 왜곡 보정

컴퓨터 비전 시스템에서는 몇 가지 전처리 단계가 필요하다.^[1]

먼저 이미지는 배럴 왜곡 및 접선 왜곡이 제거되도록 왜곡이 보정되어야 한다. 이렇게 하면 관찰된 이미지가 이상적인 핀홀 카메라의 투영과 일치하는지 확인한다.
이미지는 이미지 정류라고 하는 이미지 쌍을 비교할 수 있도록 공통 평면으로 다시 투영되어야 한다.
두 이미지를 비교하는 정보 척도를 최소화한다. 이를 통해 두 이미지에서 특징의 위치를 가장 잘 추정하고 시차 맵을 생성한다.
선택적으로 수신된 시차 맵은 3D 점 구름으로 투영된다. 카메라의 투영 매개변수를 활용하여 점 구름을 계산하여 알려진 배율로 측정을 제공할 수 있다.

2. 2. 2. 이미지 정류 (Image Rectification)

컴퓨터 비전 시스템에서는 몇 가지 전처리 과정이 필요하다.^[1] 이미지 쌍을 비교하기 위해서는 이미지를 공통 평면으로 다시 투영해야 하는데, 이를 이미지 정류(Image rectification)라고 한다. 이미지 평면이 동일 평면이 아닌 경우, 동일 평면인 것처럼 이미지를 조정하기 위해 이미지 정류가 필요하다. 이는 선형 변환을 통해 실현할 수 있다.^[8]

핀홀 카메라로 촬영한 이미지를 평면에 투영한 것과 동등한 이미지로 만들기 위해서 이미지 정류가 필요할 수도 있다.

2. 3. 시차 계산

전통적인 스테레오 비전에서는 수평으로 서로 떨어진 두 대의 카메라를 사용하여 인간의 양안시와 유사한 방식으로 장면의 두 가지 다른 뷰를 얻는다. 이 두 이미지를 비교하여 시차 맵 형태의 상대적인 깊이 정보를 얻을 수 있으며, 이는 대응 문제에 해당하는 이미지 점들의 수평 좌표 차이를 인코딩한다. 이 시차 맵의 값은 해당 픽셀 위치에서 장면 깊이에 반비례한다.

사람이 두 이미지를 비교하려면, 스테레오 장치에서 겹쳐야 하며, 오른쪽 카메라의 이미지는 관찰자의 오른쪽 눈에, 왼쪽 카메라의 이미지는 왼쪽 눈에 표시된다.

컴퓨터 비전 시스템에서는 몇 가지 전처리 단계가 필요하다.^[1]

# 먼저 이미지를 배럴 왜곡 및 접선 왜곡이 제거되도록 왜곡을 제거해야 한다. 이렇게 하면 관찰된 이미지가 이상적인 핀홀 카메라의 투영과 일치하는지 확인한다.

# 이미지를 이미지 정류라고 하는 이미지 쌍을 비교할 수 있도록 공통 평면으로 다시 투영해야 한다.

# 두 이미지를 비교하는 정보 척도를 최소화한다. 이를 통해 두 이미지에서 특징의 위치를 가장 잘 추정하고 시차 맵을 생성한다.

# 선택적으로 수신된 시차 맵은 3D 점 구름으로 투영된다. 카메라의 투영 매개변수를 활용하여 점 구름을 계산하여 알려진 배율로 측정을 제공할 수 있다.

픽셀은 위치에서 색상을 기록한다. 위치는 픽셀 그리드의 위치 (x, y)와 픽셀까지의 깊이 ''z''로 식별된다.

스테레오 비전은 다른 위치에서 동일한 장면의 두 이미지를 제공한다. 인접 다이어그램에서 점 ''A''의 빛은 ''B''와 ''D''의 핀홀 카메라의 진입점을 통해 ''E''와 ''H''의 이미지 스크린으로 전송된다.

첨부된 다이어그램에서 두 카메라 렌즈 중심 사이의 거리는 ''BD = BC + CD''이다. 삼각형은 다음과 유사하다.

''ACB''와 ''BFE''
''ACD''와 ''DGH''

:

\begin{align}\text{따라서 변위 }d &= EF + GH \\&= BF (\frac{EF}{BF} + \frac{GH}{BF})  \\&= BF (\frac{EF}{BF} + \frac{GH}{DG})  \\&= BF (\frac{BC + CD}{AC})  \\&= BF \frac{BD}{AC}  \\&= \frac{k}{z}  \text{, 여기서}\\\end{align}

''k = BD BF''
''z = AC''는 카메라 평면에서 물체까지의 거리이다.

따라서 카메라가 수평이고 이미지 평면이 동일한 평면에 평평하다고 가정하면, 두 이미지에서 동일한 픽셀 사이의 y축 변위는 다음과 같다.

:

d = \frac{k}{z}

여기서 ''k''는 두 카메라 사이의 거리에 렌즈에서 이미지까지의 거리를 곱한 값이다.

두 이미지의 깊이 구성 요소는

z_1

및

z_2

이며, 다음으로 주어진다.

:

z_2(x, y) = \min \left \{v : v = z_1(x, y - \frac{k}{z_1(x, y)})\right \}

:

z_1(x, y) = \min \left \{v : v = z_2(x, y + \frac{k}{z_2(x, y)}) \right \}

2. 4. 깊이 정보 계산

전통적인 스테레오 비전에서는 사람의 양안시와 유사하게, 장면의 서로 다른 두 시점을 얻기 위해 수평으로 배치된 두 대의 카메라를 사용한다. 이 두 이미지를 비교하여 상대적인 깊이 정보를 얻는데, 이는 대응 문제에서 대응하는 픽셀 점들의 수평 좌표 차이를 나타내는 시차 맵 형태로 표현된다. 시차 맵의 값은 해당 픽셀 위치에서 장면의 깊이에 반비례한다.

사람이 두 이미지를 비교하려면 스테레오 장치를 통해 이미지를 겹쳐서 봐야 한다. 이때 오른쪽 카메라의 이미지는 오른쪽 눈에, 왼쪽 카메라의 이미지는 왼쪽 눈에 표시된다.

컴퓨터 비전 시스템에서는 다음과 같은 몇 가지 전처리 단계가 필요하다.^[1]

# 먼저, 배럴 왜곡 및 접선 왜곡을 제거하기 위해 이미지 왜곡을 보정해야 한다. 이를 통해 관측된 이미지가 이상적인 핀홀 카메라의 투영과 일치하도록 한다.

# 이미지 정류를 통해 이미지 쌍을 비교할 수 있도록 공통 평면에 다시 투영해야 한다.

# 두 이미지를 비교하는 정보 척도를 최소화하여 두 이미지에서 특징의 위치를 가장 잘 추정하고 시차 맵을 생성한다.

# 선택적으로, 수신된 시차 맵은 3D 점 구름으로 투영될 수 있다. 카메라의 투영 매개변수를 활용하여 점 구름을 계산하면 알려진 배율로 측정을 수행할 수 있다.

픽셀은 위치에서 색상을 기록한다. 위치는 픽셀 그리드의 위치 (x, y)와 픽셀까지의 깊이 ''z''로 식별된다.

스테레오 비전은 다른 위치에서 동일한 장면의 두 이미지를 제공한다. 인접 다이어그램에서 점 ''A''의 빛은 ''B''와 ''D''의 핀홀 카메라 진입점을 통해 ''E''와 ''H''의 이미지 스크린으로 전송된다.

첨부된 다이어그램에서 두 카메라 렌즈 중심 사이의 거리는 ''BD = BC + CD''이다. 다음 삼각형들은 서로 유사하다.

''ACB''와 ''BFE''
''ACD''와 ''DGH''

따라서 변위 d는 다음과 같이 계산된다.

:

\begin{align}\text{변위 }d &= EF + GH \\&= BF (\frac{EF}{BF} + \frac{GH}{BF})  \\&= BF (\frac{EF}{BF} + \frac{GH}{DG})  \\&= BF (\frac{BC + CD}{AC})  \\&= BF \frac{BD}{AC}  \\&= \frac{k}{z}  \text{, 여기서}\\\end{align}

''k = BD BF''
''z = AC''는 카메라 평면에서 물체까지의 거리이다.

따라서 카메라가 수평이고 이미지 평면이 동일한 평면에 평평하다고 가정하면, 두 이미지에서 동일한 픽셀 사이의 y축 변위는 다음과 같다.

:

d = \frac{k}{z}

여기서 ''k''는 두 카메라 사이의 거리에 렌즈에서 이미지까지의 거리를 곱한 값이다.

두 이미지의 깊이 구성 요소는

z_1

및

z_2

이며, 다음 식으로 주어진다.

:

z_2(x, y) = \min \left \{v : v = z_1(x, y - \frac{k}{z_1(x, y)})\right \}

:

z_1(x, y) = \min \left \{v : v = z_2(x, y + \frac{k}{z_2(x, y)}) \right \}

이러한 공식은 한 이미지에서 물체의 표면에 보이는 복셀의 가려짐 결정을 허용한다. 다른 이미지에서 보이는 더 가까운 복셀에 의해 물체의 표면에 가려진다.

2. 5. 3차원 정보 생성

전통적인 스테레오 비전에서는 인간의 양안시와 유사하게, 장면의 서로 다른 두 시점을 얻기 위해 수평으로 배치된 두 대의 카메라를 사용한다. 두 이미지를 비교하여 대응 문제에서 대응하는 픽셀 점들의 수평 좌표 차이를 나타내는 시차 맵 형태의 상대적인 깊이 정보를 얻는다. 시차 맵의 값은 해당 픽셀 위치에서 장면 깊이에 반비례한다.^[1]

사람이 두 이미지를 비교하려면 스테레오 장치에서 겹쳐야 하며, 오른쪽 카메라의 이미지는 관찰자의 오른쪽 눈에, 왼쪽 카메라의 이미지는 왼쪽 눈에 표시된다.

컴퓨터 비전 시스템에서는 다음과 같은 몇 가지 전처리 단계가 필요하다.^[1]

# 먼저 배럴 왜곡 및 접선 왜곡이 제거되도록 이미지를 왜곡 제거해야 한다. 이는 관찰된 이미지가 이상적인 핀홀 카메라의 투영과 일치하는지 확인한다.

# 이미지를 이미지 정류를 통해 이미지 쌍을 비교할 수 있도록 공통 평면으로 다시 투영해야 한다.

# 두 이미지를 비교하는 정보 척도를 최소화한다. 이를 통해 두 이미지에서 특징의 위치를 가장 잘 추정하고 시차 맵을 생성한다.

# 선택적으로 수신된 시차 맵은 3D 점 구름으로 투영된다. 카메라의 투영 매개변수를 활용하여 점 구름을 계산하여 알려진 배율로 측정을 제공할 수 있다.

픽셀은 위치에서 색상을 기록한다. 위치는 픽셀 그리드의 위치 (x, y)와 픽셀까지의 깊이 ''z''로 식별된다.

스테레오 비전은 다른 위치에서 동일한 장면의 두 이미지를 제공한다. 인접 다이어그램에서 점 ''A''의 빛은 ''B''와 ''D''의 핀홀 카메라의 진입점을 통해 ''E''와 ''H''의 이미지 스크린으로 전송된다.

첨부된 다이어그램에서 두 카메라 렌즈 중심 사이의 거리는 ''BD = BC + CD''이다. 삼각형은 다음과 유사하다.

''ACB''와 ''BFE''
''ACD''와 ''DGH''

:

\text{따라서 변위 }d = EF + GH  = BF (\frac{EF}{BF} + \frac{GH}{BF})  = BF (\frac{EF}{BF} + \frac{GH}{DG})  = BF (\frac{BC + CD}{AC})  = BF \frac{BD}{AC}  = \frac{k}{z}  \text{, 여기서}

''k = BD BF''
''z = AC''는 카메라 평면에서 물체까지의 거리이다.

따라서 카메라가 수평이고 이미지 평면이 동일한 평면에 평평하다고 가정하면 두 이미지에서 동일한 픽셀 사이의 y축 변위는 다음과 같다.

:

d = \frac{k}{z}

여기서 ''k''는 두 카메라 사이의 거리에 렌즈에서 이미지까지의 거리를 곱한 값이다.

두 이미지의 깊이 구성 요소는

z_1

및

z_2

이며, 다음으로 주어진다.

:

z_2(x, y) = \min \left \{v : v = z_1(x, y - \frac{k}{z_1(x, y)})\right \}

:

z_1(x, y) = \min \left \{v : v = z_2(x, y + \frac{k}{z_2(x, y)}) \right \}

이러한 공식은 한 이미지에서 물체의 표면에 보이는 복셀의 가려짐 결정을 허용한다. 다른 이미지에서 보이는 더 가까운 복셀에 의해 물체의 표면에 가려진다.

3. 종류

능동 스테레오 비전은 레이저나 구조광과 같은 광원을 적극적으로 사용하여 스테레오 매칭 문제를 단순화하는 스테레오 비전의 한 형태이며, 반대 용어는 수동 스테레오 비전이다.

기존 구조광 비전(SLV): 구조광 또는 레이저를 사용하여 프로젝터-카메라 대응 관계를 찾는다.^[2]^[3]
기존 능동 스테레오 비전(ASV): 구조광 또는 레이저를 사용하지만, 스테레오 매칭은 수동 스테레오 비전과 마찬가지로 카메라-카메라 대응 관계에 대해서만 수행된다.
구조광 스테레오(SLS): 카메라-카메라와 프로젝터-카메라 대응 관계를 모두 활용하는 하이브리드 기술이다.^[4]

3. 1. 수동 스테레오 비전 (Passive Stereo Vision)

전통적인 스테레오 비전에서는 수평으로 서로 떨어진 두 대의 카메라를 사용하여 인간의 양안 시차와 유사한 방식으로 장면의 두 가지 다른 뷰를 얻는다. 이 두 이미지를 비교하여 시차 맵 형태의 상대적인 깊이 정보를 얻을 수 있으며, 이는 대응 문제에 해당하는 이미지 점들의 수평 좌표 차이를 인코딩한다. 이 시차 맵의 값은 해당 픽셀 위치에서 장면 깊이에 반비례한다.

사람이 두 이미지를 비교하려면 스테레오 장치에서 겹쳐야 하며, 오른쪽 카메라의 이미지는 관찰자의 오른쪽 눈에, 왼쪽 카메라의 이미지는 왼쪽 눈에 표시된다.

컴퓨터 비전 시스템에서는 몇 가지 전처리 단계가 필요하다.^[1]

먼저 이미지를 배럴 왜곡 및 접선 왜곡이 제거되도록 왜곡을 제거해야 한다. 이렇게 하면 관찰된 이미지가 이상적인 핀홀 카메라의 투영과 일치하는지 확인한다.
이미지를 이미지 정류라고 하는 이미지 쌍을 비교할 수 있도록 공통 평면으로 다시 투영해야 한다.
두 이미지를 비교하는 정보 척도를 최소화한다. 이를 통해 두 이미지에서 특징의 위치를 가장 잘 추정하고 시차 맵을 생성한다.
선택적으로 수신된 시차 맵은 3D 점 구름으로 투영된다. 카메라의 투영 매개변수를 활용하여 점 구름을 계산하여 알려진 배율로 측정을 제공할 수 있다.

3. 2. 능동 스테레오 비전 (Active Stereo Vision)

능동 스테레오 비전은 스테레오 매칭 문제를 단순화하기 위해 레이저나 구조광과 같은 광원을 적극적으로 사용하는 방식이며, 광원을 사용하지 않는 수동 스테레오 비전과 대비된다.

3. 2. 1. 종류

능동 스테레오 비전은 레이저나 구조광과 같은 광원을 적극적으로 사용하여 스테레오 매칭 문제를 단순화하는 스테레오 비전의 한 형태이다. 반대 용어는 수동 스테레오 비전이다.

기존 구조광 비전(SLV)은 구조광 또는 레이저를 사용하여 프로젝터-카메라 대응 관계를 찾는다.^[2]^[3]
기존 능동 스테레오 비전(ASV)은 구조광 또는 레이저를 사용하지만, 스테레오 매칭은 수동 스테레오 비전과 마찬가지로 카메라-카메라 대응 관계에 대해서만 수행된다.
구조광 스테레오(SLS)는 카메라-카메라와 프로젝터-카메라 대응 관계를 모두 활용하는 하이브리드 기술이다.^[4]

4. 응용 분야

3차원 스테레오 디스플레이는 엔터테인먼트, 정보 전달 및 자동화 시스템 분야에서 다양하게 응용된다. 스테레오 비전은 로봇 공학과 같은 분야에서 자율 시스템 주변의 3차원 물체의 상대적 위치에 대한 정보를 추출하는 데 매우 중요하다. 로봇 공학의 다른 응용 분야로는 객체 인식이 있으며,^[5] 깊이 정보를 통해 로봇이 다른 기준으로는 별개의 객체로 구별할 수 없는, 서로 앞에 있는 의자와 같이 가려진 이미지 구성 요소를 분리할 수 있다.

디지털 스테레오 비전의 과학적 응용 분야에는 항공 측량에서 정보 추출, 등고선 지도 계산 또는 3차원 건물 매핑, 사진 측량 위성 매핑을 위한 기하학 추출, 또는 미국 항공우주국(NASA) STEREO 프로젝트에서 얻은 것과 같은 3차원 일광 정보 계산이 포함된다.

5. 정보 측정

최소 자승 측도는 개별 점 $z(x, y)$ 에서의 깊이가 주어진 입체 영상의 정보량을 측정하는 데 사용될 수 있다.^[6] 먼저, 어떤 이미지를 다른 이미지의 관점에서 표현하는 데 필요한 정보를 유도한다. 이를 $I_m$ 이라고 부른다.

색상의 차이를 공정하게 측정하기 위해서는 색차 함수를 사용할 필요가 있다. 색차 함수는 ''cd''로 표기한다. 두 이미지 간의 색상 매칭을 기록하는 데 필요한 정보의 척도는 다음과 같다.

: $I_m(z_1, z_2) = \frac{1}{\sigma_m^2} \sum_{x, y}\operatorname{cd}(\operatorname{color}_1(x, y + \frac{k}{z_1(x, y)}), \operatorname{color}_2(x, y))^2$

이미지의 매끄러움에 대한 가정이 이루어진다. 두 픽셀이 나타내는 복셀이 더 가까울수록 같은 색상일 가능성이 더 높다고 가정한다. 이 측도는 유사한 색상이 동일한 깊이에서 그룹화되는 것을 선호하도록 설계되었다. 예를 들어, 앞에 있는 물체가 뒤쪽 하늘 영역을 가리는 경우, 매끄러움의 척도는 파란색 픽셀이 모두 동일한 깊이에서 함께 그룹화되는 것을 선호한다.

전체 매끄러움 측정은 복셀 간의 거리를 색상 차이의 예상 표준 편차의 추정치로 사용한다.

: $I_s(z_1, z_2) = \frac{1}{2 \sigma_h^2} \sum_{i : \{1, 2\}} \sum_{x_1, y_1} \sum_{x_2, y_2} \frac{\operatorname{cd}(\operatorname{color}_i(x_1, y_1), \operatorname{color}_i(x_2, y_2))^2}{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_i(x_1, y_1) - z_i(x_2, y_2))^2}$

전체 정보량은 다음의 합으로 표현된다.

: $I_t(z_1, z_2) = I_m(z_1, z_2) + I_s(z_1, z_2)$

각 픽셀의 z 성분은, 정보량의 최소값을 주도록 선택해야 한다. 이를 통해, 각 픽셀에서 가장 가능성이 높은 깊이를 얻을 수 있다. 전체 정보량의 최소값은

: $I_{\operatorname{min}} = \min{\{i : i = I_t(z_1, z_2)\}}$

이다.

왼쪽 이미지와 오른쪽 이미지의 깊이 함수는 짝을 이룬다.

: $(z_1, z_2) \in \{(z_1, z_2) : I_t(z_1, z_2) = I_{\operatorname{min}} \}$

원칙적으로 평활도는 세상의 다른 속성들과 마찬가지로 학습되어야 한다. 이는 인간 시각 시스템이 하는 것으로 보인다.

5. 1. 최소 자승 정보 척도

정규 분포는 다음과 같다.

:

P(x, \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}} e^{ -\frac{(x-\mu)^2}{2\sigma^2} }

확률은 메시지 길이 ''L''로 설명되는 정보 내용과 관련이 있다.

:

P(x) = 2^{-L(x)}

:

L(x) = -\log_2{P(x)}

따라서,

:

L(x, \mu, \sigma) = \log_2(\sigma\sqrt{2\pi}) + \frac{(x-\mu)^2}{2\sigma^2}  \log_2 e

스테레오 영상 비교를 위해서는 상대적인 메시지 길이만 중요하다. 이를 바탕으로, 제곱 차의 합(SSD)이라고 하는 정보 측정값 ''I''는 다음과 같다.

:

I(x, \mu, \sigma) = \frac{(x-\mu)^2}{\sigma^2}

여기서,

:

L(x, \mu, \sigma) = \log_2(\sigma\sqrt{2\pi}) + I(x, \mu, \sigma) \frac{\log_2 e}{2}

SSD에서 숫자를 제곱하는 데 드는 처리 시간 비용 때문에, 많은 구현에서는 정보 측정값을 계산하는 데 절대 차의 합(SAD)을 사용한다. 다른 방법으로는 정규화된 상호 상관(NCC)을 사용하기도 한다.

5. 2. 정보 척도 계산

색상의 유사성을 측정하는 척도는 평활도이다. 뚜렷한 물체는 소수의 색상을 가진다는 가정하에, 유사한 색상의 픽셀은 여러 객체보다 단일 객체에 속할 가능성이 더 높다.

평활도를 평가하기 위해 정보 이론에 기반한 방법이 사용되며, 복셀의 색상이 점들 사이의 거리에 대한 정규 분포에 따라 근처 복셀의 색상에 영향을 미친다는 가정을 사용한다. 이 모델은 세상에 대한 근사적인 가정에 기반한다. 평활도에 대한 사전 가정을 기반으로 하는 또 다른 방법은 자기 상관이다. 평활도는 이미지의 고유한 속성이 아니라 세상의 속성이다. 임의의 점들로 구성된 이미지는 평활도를 갖지 않으며, 인접한 점에 대한 추론은 쓸모가 없을 것이다.

정규 분포는 다음과 같다.

:

P(x, \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}} e^{ -\frac{(x-\mu)^2}{2\sigma^2} }

확률은 메시지 길이 ''L''로 설명되는 정보 내용과 관련이 있으며,

:

P(x) = 2^{-L(x)}

:

L(x) = -\log_2{P(x)}

따라서,

:

L(x, \mu, \sigma) = \log_2(\sigma\sqrt{2\pi}) + \frac{(x-\mu)^2}{2\sigma^2}  \log_2 e

스테레오 영상 비교를 위해, 상대적인 메시지 길이만 중요하다. 이를 바탕으로, 제곱 차의 합(SSD)이라고 하는 정보 측정값 ''I''는 다음과 같다.

:

I(x, \mu, \sigma) = \frac{(x-\mu)^2}{\sigma^2}

여기서,

:

L(x, \mu, \sigma) = \log_2(\sigma\sqrt{2\pi}) + I(x, \mu, \sigma) \frac{\log_2 e}{2}

SSD에서 숫자를 제곱하는 데 드는 처리 시간 비용 때문에, 많은 구현에서는 정보 측정값을 계산하는 데 절대 차의 합(SAD)을 사용한다. 다른 방법으로는 정규화된 상호 상관(NCC)을 사용한다.

최소 자승 측도는 개별 점

z(x, y)

에서의 깊이가 주어진 입체 영상의 정보량을 측정하는 데 사용할 수 있다.^[13] 먼저, 어떤 이미지를 다른 이미지의 관점에서 표현하는 데 필요한 정보를 유도한다. 이를

I_m

이라고 부른다.

색상의 차이를 공정하게 측정하기 위해서는 색차 함수를 사용할 필요가 있다. 색차 함수는 색차 ''cd''를 다음과 같이 기술한다. 두 이미지 간의 색상 매칭을 기록하는 데 필요한 정보의 척도는

:

I_m(z_1, z_2) = \frac{1}{\sigma_m^2} \sum_{x, y}\operatorname{cd}(\operatorname{color}_1(x, y + \frac{k}{z_1(x, y)}),  \operatorname{color}_2(x, y))^2

이다.

이미지의 매끄러움에 대한 가정이 이루어진다. 두 픽셀은, 그것들이 나타내는 복셀이 가까울수록, 같은 색이 될 가능성이 높다고 가정한다. 이 측도는, 유사한 색상이 같은 깊이에 그룹화되는 것을 선호하도록 의도되어 있다. 예를 들어, 전방의 물체가 후방의 빈 영역을 덮고 있는 경우, 매끄러움의 측도는, 파란색 픽셀이 모두 같은 깊이로 그룹화되는 것을 선호한다.

매끄러움의 종합 측도는, 복셀 간의 거리를 색차의 기대 표준 편차의 추정치로 사용한다.

:

I_s(z_1, z_2) = \frac{1}{2 \sigma_h^2} \sum_{i : \{1, 2\}} \sum_{x_1, y_1} \sum_{x_2, y_2} \frac{\operatorname{cd}(\operatorname{color}_i(x_1, y_1),  \operatorname{color}_i(x_2, y_2))^2}{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_i(x_1, y_1) - z_i(x_2, y_2))^2}

전체 정보량은 다음의 합으로 표현된다.

:

I_t(z_1, z_2) = I_m(z_1, z_2) + I_s(z_1, z_2)

각 픽셀의 z 성분은, 정보량의 최소값을 주도록 선택해야 한다. 이를 통해, 각 픽셀에서 가장 가능성이 높은 깊이를 얻을 수 있다. 전체 정보량의 최소값은

:

I_{\operatorname{min}} = \min{\{i : i = I_t(z_1, z_2)\}}

이다.

왼쪽 이미지와 오른쪽 이미지의 깊이 함수는 짝을 이룬다.

:

(z_1, z_2) \in \{(z_1, z_2) : I_t(z_1, z_2) = I_{\operatorname{min}} \}

6. 구현 방법

이 최소화 문제는 NP-완전 문제이다. 이는 이 문제에 대한 일반적인 해결책을 도출하는 데 오랜 시간이 걸린다는 것을 의미한다. 그러나 합리적인 시간 내에 결과를 근사하는 휴리스틱 기반의 컴퓨터 방법이 존재한다. 또한 신경망 기반의 방법도 존재한다.^[7] 스테레오 비전의 효율적인 구현은 활발히 연구되는 분야이다.

7. 한계점

최소화 문제는 NP-완전 문제이다. 이는 이 문제에 대한 일반적인 해결책을 도출하는 데 오랜 시간이 걸린다는 것을 의미한다. 그러나 합리적인 시간 내에 결과를 근사하는 휴리스틱 기반의 컴퓨터 방법이 존재한다. 또한 신경망 기반의 방법도 존재한다.^[7] 스테레오 비전의 효율적인 구현은 활발히 연구되는 분야이다.

8. 향후 연구 과제

최소화 문제는 NP-완전 문제이다. 이는 이 문제에 대한 일반적인 해결책을 도출하는 데 오랜 시간이 걸린다는 것을 의미한다. 그러나 합리적인 시간 내에 결과를 근사하는 휴리스틱 기반의 컴퓨터 방법이 존재한다. 또한 신경망 기반의 방법도 존재한다.^[7] 스테레오 비전의 효율적인 구현은 활발히 연구되는 분야이다.

참조

_[1] 서적 Learning OpenCV: Computer Vision with the OpenCV Library O'Reilly
_[2] 서적 Computer Vision - ECCV 2004
_[3] 간행물 Colour-stripe permutation pattern for rapid structured-light range imaging https://dx.doi.org/1[...]
_[4] 간행물 Structured-light stereo: Comparative analysis and integration of structured-light and active stereo for measuring dynamic shape https://dx.doi.org/1[...]
_[5] 간행물 3D Object Recognition in Cluttered Environments by Segment-Based Stereo Vision https://link.springe[...]
_[6] 간행물 Review of Stereo Vision Algorithms: From Software to Hardware 2008
_[7] 간행물 On disparity matching in stereo vision via a neural network framework 1999
_[8] 서적 Learning OpenCV: Computer Vision with the OpenCV Library O'Reilly
_[9] 서적 European Conference on Computer Vision ECCV 2004: Computer Vision - ECCV 2004
_[10] 간행물 Colour-stripe permutation pattern for rapid structured-light range imaging
_[11] 간행물 Structured-light stereo: Comparative analysis and integration of structured-light and active stereo for measuring dynamic shape
_[12] 간행물 3D Object Recognition in Cluttered Environments by Segment-Based Stereo Vision
_[13] 간행물 Review of Stereo Vision Algorithms: From Software to Hardware 2008
_[14] 간행물 On disparity matching in stereo vision via a neural network framework 1999

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com