경사지향 히스토그램
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
경사지향 히스토그램(HOG)은 이미지 내의 객체 모양과 모습을 강도 기울기 또는 에지 방향의 분포로 설명하는 특징 디스크립터이다. 이미지를 작은 셀로 나누고 각 셀 내에서 기울기 방향의 히스토그램을 계산하며, 이러한 히스토그램들의 연결을 디스크립터로 사용한다. HOG는 기하학적 및 광도 변환에 불변하며, 거친 공간 샘플링, 미세한 방향 샘플링, 강력한 국소 광도 정규화를 통해 보행자 감지에 특히 적합하다. HOG 디스크립터는 기울기 계산, 방향성 구간화, 디스크립터 블록 구성, 블록 정규화 단계를 거쳐 구현되며, 객체 인식 및 기계 학습 알고리즘에 활용된다. Dalal과 Triggs의 연구를 통해 R-HOG 및 C-HOG 블록 디스크립터의 성능이 입증되었으며, 이후 다양한 객체 탐지 및 이미지 검색 분야로 확장되었다.
더 읽어볼만한 페이지
경사지향 히스토그램 | |
---|---|
개요 | |
종류 | 특징 추출 |
분야 | 컴퓨터 비전 |
개발자 | 나빌 달랄, 빌 트리거스 |
특징 | |
설명 | 이미지에서 객체를 감지하기 위해 사용되는 특징 설명자 |
핵심 아이디어 | 이미지의 지역 영역 내에서 발생 빈도수를 세어 객체의 모양과 외형을 설명한다. |
구현 | 경사도 방향의 히스토그램을 계산하여 구현 |
응용 분야 | 보행자 감지 얼굴 감지 텍스트 감지 차량 감지 |
장점 | 기하학적, 광학적 변형에 둔감함 |
단점 | 계산 복잡도가 높음 |
작동 방식 | |
1단계 | 이미지 전처리 (색 공간 정규화, 감마 보정) |
2단계 | 이미지의 각 픽셀에서 경사도 계산 (경사도 크기 및 방향) |
3단계 | 셀 생성 (이미지를 작은 영역으로 나눔) |
4단계 | 각 셀에 대한 경사도 방향 히스토그램 계산 |
5단계 | 블록 정규화 (조명 및 대비 변화에 강건하게 만듬) |
6단계 | 특징 벡터 생성 (모든 블록의 정규화된 히스토그램 결합) |
역사 | |
개발 | 나빌 달랄과 빌 트리거스가 2005년에 개발 |
응용 | 주로 인물 검출에 사용 |
추가 정보 | |
다른 설명자 | 스케일-불변 특징 변환 (SIFT) 가속-강건 특징 (SURF) 지역 이진 패턴 (LBP) |
2. 이론
경사지향 히스토그램(HOG) 디스크립터의 핵심 개념은 이미지 내의 국소적인 객체 모양과 모습이 강도 기울기 또는 에지 방향의 분포로 설명될 수 있다는 것이다. 이미지는 셀(cell)이라고 불리는 작고 연결된 지역으로 나뉘며, 각 셀 내의 픽셀에 대해 기울기 방향의 히스토그램이 만들어진다. 디스크립터는 이렇게 만들어진 히스토그램들을 연결한 것이다. 정확도를 높이기 위해, 블록(block)이라고 불리는 이미지의 더 큰 영역에 걸쳐 대비 정규화를 수행할 수 있다. 즉, 블록 내의 강도 값을 계산하여 국소 히스토그램을 정규화하고, 이 정규화된 값을 이용해 블록 안의 모든 셀을 다시 정규화하는 방식이다. 이러한 정규화 과정은 조명이나 그림자 변화에 덜 민감하게 만들어준다.
경사지향 히스토그램(HOG) 특징을 추출하는 알고리즘은 일반적으로 다음과 같은 단계로 구현된다.
HOG 디스크립터는 다른 디스크립터에 비해 몇 가지 중요한 장점을 가진다. 국소적인 셀 단위로 작동하기 때문에, 객체의 방향 변화를 제외한 기하학적 변환(크기, 위치 변화 등)이나 광도 변환(밝기 변화 등)에 영향을 덜 받는다. 이러한 변화들은 보통 더 넓은 공간 영역에서 두드러지기 때문이다. 또한 Dalal과 Triggs의 연구에 따르면[3], HOG는 공간을 다소 듬성하게 샘플링하고 방향은 세밀하게 샘플링하며, 국소적인 광도 정규화를 강하게 적용함으로써 보행자가 대체로 똑바로 서 있는 자세라면 개인의 세세한 움직임은 크게 문제되지 않는다. 이러한 특징 덕분에 HOG 디스크립터는 이미지에서 사람 감지 분야에 특히 유용하게 사용된다.[3]
3. 알고리즘 구현
# 기울기 계산: 이미지의 각 픽셀에서 수평 및 수직 방향의 밝기 변화율(기울기)을 계산한다. 이를 통해 이미지 내 객체의 윤곽선과 질감 정보를 파악할 수 있다.
# 방향성 구간화 (Orientation Binning): 이미지를 작은 영역인 '셀(cell)' 단위로 나누고, 각 셀 내부 픽셀들의 기울기 방향과 크기를 바탕으로 방향성 히스토그램을 생성한다. 이는 특정 영역의 주요 기울기 방향 분포를 나타낸다.
# 디스크립터 블록 (Descriptor Blocks): 여러 개의 셀을 묶어 '블록(block)'이라는 더 큰 영역을 구성한다. 이는 조명 변화나 약간의 형태 변형에 덜 민감한 특징을 만들기 위함이다.
# 블록 정규화 (Block normalization): 각 블록 내의 셀 히스토그램 정보를 정규화하여 조명이나 대비 변화의 영향을 줄인다. 정규화된 블록들의 정보를 모두 연결하여 최종 HOG 특징 벡터를 완성한다.
각 단계에 대한 자세한 구현 방식과 파라미터 설정은 이어지는 하위 섹션에서 설명한다.
3. 1. 기울기 계산
많은 이미지 전처리 과정의 특징 감지기에서는 계산의 첫 단계로 정규화된 색상 및 감마 값을 보장하는 작업을 수행한다. 그러나 달랄(Dalal)과 트리그스(Triggs)는 이 단계가 이후의 설명자 정규화와 본질적으로 동일한 결과를 얻기 때문에 HOG 설명자 계산에서는 생략할 수 있다고 지적했다. 따라서 이미지 전처리는 성능에 거의 영향을 미치지 않는다.
대신, HOG 계산의 첫 단계는 기울기 값을 계산하는 것이다. 가장 일반적인 방법은 수평 및 수직 방향 중 하나 또는 둘 다에서 1차원 중심점 이산 미분 마스크를 적용하는 것이다. 구체적으로 이 방법은 다음과 같은 필터 커널로 이미지의 색상 또는 강도 데이터를 필터링해야 한다.
:
달랄(Dalal)과 트리그스(Triggs)는 3x3 소벨 마스크나 대각선 마스크와 같은 더 복잡한 마스크를 테스트했지만, 이러한 마스크는 일반적으로 이미지에서 사람을 감지하는 데 더 나쁜 성능을 보였다. 그들은 또한 미분 마스크를 적용하기 전에 가우시안 스무딩을 실험했지만, 마찬가지로 실제로 스무딩을 생략하는 것이 더 나은 성능을 보였다고 밝혔다.[4]
3. 2. 방향성 구간화 (Orientation Binning)
두 번째 계산 단계는 셀 히스토그램을 생성하는 것이다. 셀 내의 각 픽셀은 기울기 계산에서 얻은 값을 바탕으로 방향 기반 히스토그램 빈(bin)에 가중치를 부여하여 투표한다. 셀 자체는 직사각형 또는 방사형 모양일 수 있으며, 히스토그램 채널은 기울기가 '부호 없음'(unsigned)인지 '부호 있음'(signed)인지에 따라 0~180도 또는 0~360도에 걸쳐 균등하게 분포된다.
달랄(Dalal)과 빌 트리그스(Triggs)는 사람 감지 실험에서 부호 없는 기울기를 9개의 히스토그램 채널과 함께 사용했을 때 가장 좋은 성능을 보였다고 밝혔다. 반면, 부호 있는 기울기는 자동차나 오토바이와 같은 다른 종류의 물체를 인식하는 데 상당한 개선을 가져온다고 언급했다.
투표 가중치의 경우, 픽셀의 기여도는 기울기 크기 자체이거나 크기의 특정 함수가 될 수 있다. 실험 결과, 일반적으로 기울기 크기 자체를 사용하는 것이 최상의 결과를 생성하는 것으로 나타났다. 투표 가중치에 대한 다른 선택지로는 기울기 크기의 제곱근이나 제곱, 또는 크기를 특정 값에서 잘라낸 버전 등이 있다.[5]
3. 3. 디스크립터 블록 (Descriptor Blocks)
조명이나 대비 변화에 강인한 특징을 만들기 위해, 기울기 강도를 주변 영역을 고려하여 정규화할 필요가 있다. 이를 위해 셀(cell)들을 더 큰 공간적 단위인 블록(block)으로 묶는다. HOG 디스크립터는 이렇게 정규화된 각 블록의 셀 히스토그램 정보들을 하나로 이어 붙인 벡터(vector)이다. 블록들은 보통 서로 겹치게 구성되므로, 하나의 셀이 최종 디스크립터 계산에 여러 번 사용될 수 있다.
블록의 형태는 크게 사각형 모양의 R-HOG(Rectangular HOG) 블록과 원형 모양의 C-HOG(Circular HOG) 블록 두 가지가 있다.3. 4. 블록 정규화 (Block normalization)
Dalal과 Triggs는 블록 정규화를 위한 네 가지 다른 방법을 탐구했다. 주어진 블록의 모든 히스토그램을 포함하는 비정규화 벡터를 라 하고, 를 에 대한 해당 ''k''-노름, 를 작은 상수(정확한 값은 중요하지 않음)라고 할 때, 정규화 인자는 다음과 같다.
Dalal과 Triggs의 실험 결과에 따르면, L2-hys, L2-노름, L1-sqrt 방식은 비슷한 성능을 보였으며, L1-노름은 이들보다 약간 덜 안정적인 성능을 나타냈다. 하지만 네 가지 방법 모두 정규화를 하지 않은 데이터에 비해 성능이 매우 의미 있게 향상되었다.[8]
4. 객체 인식 (Object recognition)
경사지향 히스토그램(HOG) 디스크립터는 기계 학습 알고리즘에 특징으로 제공하여 객체 인식에 사용할 수 있다. Dalal과 Triggs는 HOG 디스크립터를 서포트 벡터 머신(SVM)의 특징으로 사용했지만,[9] HOG 디스크립터는 특정 기계 학습 알고리즘에 얽매이지 않는다.
5. 성능
달랄(Navneet Dalal)과 트리그스(Bill Triggs)는 최초의 인간 감지 실험에서 자신들이 개발한 R-HOG 및 C-HOG 디스크립터 블록의 성능을 기존의 다른 방식들과 비교했다. 비교 대상은 일반화된 하르 웨이블릿, PCA-SIFT 디스크립터, 모양 컨텍스트 디스크립터였다.
- 일반화된 하르 웨이블릿: 방향성을 가진 하르 웨이블릿의 한 종류로, 2001년 모한(Mohan), 파파게오르기우(Papageorgiou), 포지오(Poggio)가 자신들의 객체 감지 실험에 사용했다.
- PCA-SIFT: SIFT 디스크립터와 유사하지만, 정규화된 그래디언트 패치에 주성분 분석(PCA)을 적용하는 점이 다르다. 2004년 Ke와 Sukthankar가 처음 제안했으며, 일반 SIFT보다 성능이 우수하다고 주장되었다.
- 모양 컨텍스트: C-HOG 블록과 유사하게 원형 빈(bin)을 사용하지만, 방향 정보 없이 에지(edge)의 존재 유무만을 기반으로 투표를 집계한다. 2001년 벨로지에(Belongie), 말릭(Malik), 푸지차(Puzicha)가 처음 사용했다.
성능 테스트는 두 가지 다른 데이터 세트를 사용하여 진행되었다.
1. MIT 보행자 데이터베이스: 도시 거리에서 촬영된 보행자 이미지로, 훈련용 509개와 테스트용 200개 이미지를 포함한다. 주로 사람의 앞모습이나 뒷모습 이미지만 포함되어 있어 자세의 다양성은 적다. 이 데이터 세트는 2000년 파파게오르기우와 포지오의 실험 등 여러 인간 감지 연구에 사용되어 잘 알려져 있다. (https://web.archive.org/web/20041118152354/http://cbcl.mit.edu/cbcl/software-datasets/PedestrianData.html 연구 목적 사용 가능)
2. INRIA 데이터베이스: HOG 디스크립터가 MIT 데이터 세트에서 거의 완벽한 성능을 보이자, 달랄과 트리그스는 더 어려운 조건에서의 성능 평가를 위해 이 데이터 세트를 직접 개발했다. 개인 사진에서 추출한 1805개의 인간 이미지를 포함하며, 다양한 자세와 복잡한 배경(예: 군중 장면)을 포함하여 MIT 데이터 세트보다 난이도가 높다. (http://lear.inrialpes.fr/data 연구 목적 사용 가능)
실험 결과, C-HOG와 R-HOG 블록 디스크립터는 비슷한 성능을 보였으며, 두 데이터 세트 모두에서 C-HOG가 고정된 오탐률(False Positive Rate)에서 약간 더 낮은 감지 누락률(Miss Rate)을 기록했다.
디스크립터 | MIT 데이터 세트 | INRIA 데이터 세트 |
---|---|---|
C-HOG | 거의 0 | 약 0.1 |
R-HOG | 거의 0 | 약 0.1 |
일반화된 하르 웨이블릿 | 약 0.01 | 약 0.3 |
PCA-SIFT | 약 0.1 | 약 0.5 |
모양 컨텍스트 | 약 0.1 | 약 0.5 |
MIT 데이터 세트에서는 C-HOG와 R-HOG 모두 10−4 오탐률에서 감지 누락률이 거의 0에 가까웠다. INRIA 데이터 세트에서는 동일한 오탐률 조건에서 약 0.1의 감지 누락률을 보였다.
반면, 일반화된 하르 웨이블릿은 MIT 데이터 세트에서 약 0.01, INRIA 데이터 세트에서 약 0.3의 누락률을 기록하여 HOG 다음으로 좋은 성능을 보였다. PCA-SIFT와 모양 컨텍스트 디스크립터는 두 데이터 세트 모두에서 상대적으로 낮은 성능을 보였는데, MIT 데이터 세트에서는 약 0.1, INRIA 데이터 세트에서는 약 0.5의 누락률을 기록했다 (모두 10−4 오탐률 기준).
6. 추가 개발
파스칼 시각 객체 클래스 2006 워크숍에서 나브닛 달랄(eng)과 빌 트리그스(eng)는 기존 사람 탐지에 사용되던 경사지향 히스토그램(HOG) 기술을 자동차, 버스, 자전거와 같은 다른 시각적 객체 및 개, 고양이, 소와 같은 동물 이미지에 적용한 결과를 발표했다. 이 연구에는 각 객체 유형에 대한 최적의 블록 구성 및 정규화 매개변수 값도 포함됐다. 오토바이를 탐지하는 데 HOG를 성공적으로 적용한 사례도 제시됐다.[10]
같은 해 ECCV 2006에서 달랄과 트리그스는 코델리아 슈미드(eng)와 협력하여 영화 및 비디오 속 인물 탐지에 HOG 기술을 적용하는 연구 결과를 발표했다. 이들은 개별 비디오 프레임에서 추출한 HOG 특징과 함께, 연속된 두 프레임 사이의 움직임 정보를 담은 내부 모션 히스토그램(IMH, Internal Motion Histograms)이라는 새로운 특징 기술을 결합했다. IMH는 연속된 두 프레임 간의 광학 흐름 벡터장 기울기 크기를 계산하여 생성되며, 정지 이미지에서 HOG 특징을 계산하는 방식과 유사하게 처리된다. 두 개의 대규모 영화 데이터셋을 이용한 실험 결과, HOG와 IMH를 결합한 방식은 의 오탐률(false positive rate)에서 약 0.1의 미탐률(miss rate)을 보여 기존 방식보다 향상된 성능을 보였다.[11]
또한 2006년 지능형 차량 심포지엄에서는 F. 수아드(fra), A. 라코토마몬지(fra), A. 벤스르하르(fra)가 HOG 디스크립터를 기반으로 한 완전한 보행자 탐지 시스템을 소개했다. 이 시스템은 두 대의 적외선 카메라를 사용하는데, 적외선 영상에서 사람이 주변 배경보다 밝게 나타나는 특성을 이용한다. 먼저 영상 전체에서 사람이 있을 가능성이 높은 관심 영역(ROI, Region of Interest)을 찾은 다음, 이 영역에서 추출한 HOG 특징을 서포트 벡터 머신(SVM) 분류기에 입력하여 보행자 존재 여부를 최종 판단한다. 보행자가 탐지되면, 스테레오 비전 기술을 이용해 실제 3차원 공간에서의 위치를 추정한다.[12]
같은 해 IEEE CVPR 2006에서는 치앙 주(eng), 샤이 아비단(eng), 메이-첸 예(eng), 켕 팅 청(eng)이 HOG 디스크립터 방법을 사용하여 사람 탐지 속도를 크게 높이는 알고리즘을 발표했다. 그들의 방법은 HOG 디스크립터를 얼굴 탐지에 매우 성공적으로 적용된 캐스케이드 분류기 알고리즘과 결합하여 사용한다. 또한, 균일한 크기의 블록에 의존하는 대신 크기, 위치 및 종횡비가 다른 블록을 도입했다. 사람 탐지에 가장 적합한 블록을 격리하기 위해 AdaBoost 알고리즘을 적용하여 캐스케이드에 포함할 블록을 선택했다. 실험에서 그들의 알고리즘은 원래 달라와 트리그스 알고리즘과 비슷한 성능을 달성했지만 최대 70배 더 빠른 속도로 작동했다. 2006년 미쓰비시 전기 연구소는 이 알고리즘에 대해 출원 번호 20070237387로 미국 특허를 신청했다.[13]
2010년 IEEE ICIP에서는 루이 후(eng), 마크 바나드(eng), 존 콜로모스(eng)가 HOG 디스크립터를 스케치 기반 이미지 검색(SBIR, Sketch Based Image Retrieval)에 사용하기 위해 확장한 기울기 필드 HOG(GF-HOG, Gradient Field HOG)를 소개했다. 캐니 에지 검출기에서 지배적인 응답으로부터 라플라시안 평활화 제약 조건 하에 조밀한 방향 필드가 외삽되었고, 이 필드에 대해 HOG가 계산되었다. 결과적인 기울기 필드 HOG(GF-HOG) 디스크립터는 스케치 또는 이미지 에지 맵에서 로컬 공간 구조를 캡처했다. 이를 통해 디스크립터를 자유형 스케치 모양으로 검색 가능한 콘텐츠 기반 이미지 검색 시스템 내에서 사용할 수 있었다.[14] GF-HOG 적응은 SBIR 작업에서 스케일 불변 특징 변환(SIFT), 강력한 특징 가속화(SURF), HOG와 같은 기존 기울기 히스토그램 디스크립터보다 약 15% 더 나은 성능을 보였다.[15]
같은 해, 마틴 크루크한스(eng)는 3D 포인트 클라우드를 위한 HOG 디스크립터의 개선 사항인 방향성 잔차 히스토그램(HOR, Histogram of Oriented Residuals)을 소개했다.[16] 이미지 기울기 대신 점(픽셀)과 평면 간의 거리, 즉 잔차를 사용하여 포인트 클라우드에서 로컬 영역을 특징지었다. 그의 방향 잔차 히스토그램 디스크립터(HOR)는 3D 포인트 클라우드의 객체 탐지 작업에 성공적으로 사용되었다.[17]
참조
[1]
웹사이트
Method of and apparatus for pattern recognition
http://www.google.co[...]
[2]
웹사이트
Orientation Histograms for Hand Gesture Recognition
http://www.merl.com/[...]
[3]
웹사이트
Histograms of Oriented Gradients for Human Detection
http://lear.inrialpe[...]
[4]
웹사이트
Histograms of Oriented Gradients for Human Detection
http://lear.inrialpe[...]
[5]
웹사이트
Histograms of Oriented Gradients for Human Detection
http://lear.inrialpe[...]
[6]
웹사이트
Histograms of Oriented Gradients for Human Detection
http://lear.inrialpe[...]
[7]
논문
Distinctive image features from scale-invariant keypoints.
http://www.cs.ubc.ca[...]
IJCV
2004
[8]
웹사이트
Histograms of Oriented Gradients for Human Detection
http://lear.inrialpe[...]
[9]
웹사이트
Histograms of Oriented Gradients for Human Detection
http://lear.inrialpe[...]
[10]
웹사이트
Object Detection using Histograms of Oriented Gradients
http://www.pascal-ne[...]
2007-12-10
[11]
웹사이트
Human Detection Using Oriented Histograms of Flow and Appearance
http://www.acemedia.[...]
2007-12-10
[12]
웹사이트
Pedestrian Detection using Infrared images and Histograms of Oriented Gradients
http://www.ce.unipr.[...]
[13]
웹사이트
Fast Human Detection Using a Cascade of Histograms of Oriented Gradients
http://seaboy.tistor[...]
[14]
웹사이트
Gradient Field Descriptor for Sketch based Image Retrieval and Localisation
http://personal.ee.s[...]
[15]
웹사이트
A Performance Evaluation of the Gradient Field HOG Descriptor for Sketch based Image Retrieval
http://personal.ee.s[...]
[16]
웹사이트
Ein Detektor für Ornamente auf Gebäudefassaden auf Basis des "histogram-of-oriented-gradients"-Operators
http://www.ikg.uni-b[...]
[17]
웹사이트
Semantic 3D Octree Maps based on Conditional Random Fields
http://www.uni-koble[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com