컴퓨터 비전
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
컴퓨터 비전은 디지털 이미지나 비디오로부터 고차원적인 이해를 얻기 위해 컴퓨터를 활용하는 학제간 연구 분야이다. 인간의 시각 시스템이 수행하는 작업을 자동화하는 것을 목표로 하며, 이미지에서 유용한 정보를 자동으로 추출, 분석 및 이해하는 것과 관련이 있다. 1960년대 후반 인공지능 연구에서 시작되어, 3차원 구조 추출, 에지 검출, 움직임 추정 등 다양한 알고리즘 개발을 거쳤다. 최근에는 기계 학습 기술과 딥러닝의 발전에 힘입어 객체 인식, 탐지, 분할 등 다양한 분야에서 높은 정확도를 보이며 발전하고 있다. 고체물리학, 신경생물학, 신호 처리, 로봇 내비게이션 등 다양한 분야와 관련이 있으며, 자동 검사, 자율 주행 차량, 의료 영상 분석 등 광범위한 응용 분야를 가지고 있다.
더 읽어볼만한 페이지
- SF - 키넥트
키넥트는 마이크로소프트에서 개발한 동작 인식 장치로, 적외선 프로젝터와 센서를 사용하여 사용자의 움직임과 음성을 인식하며, Xbox용으로 출시되어 큰 인기를 얻었지만 개인정보 보호 문제 등으로 판매가 부진하여 생산이 중단되었고, 다양한 분야에서 활용되며 기술적 가치를 인정받아 클라우드 기반 Azure Kinect로 이어졌으나 단종되었다. - SF - 가상 세계
가상 세계는 컴퓨터 네트워크 기반의 공유 환경에서 아바타를 통해 실시간 상호 작용하며 다양한 활동을 수행하는 공간으로, 게임, 협업, 교육 등 여러 분야에 활용되지만 경제적, 법적 문제와 몰입에 대한 연구가 필요하며, 미래 사회의 중심지가 될 가능성이 높다. - 컴퓨터 과학에 관한 - 친절한 인공지능
친절한 인공지능은 사용자에게 친절하고 공감적인 방식으로 상호 작용하며 긍정적이고 효과적인 사용자 경험을 제공하는 것을 목표로 하는 인공지능 기술의 한 분야이다. - 컴퓨터 과학에 관한 - AI 붐
AI 붐은 2010년대 중후반부터 딥 러닝, 생성형 AI 등 인공지능 기술의 급격한 발전과 알파고-이세돌 대국, 알파폴드, 챗GPT 등의 등장으로 사회 전반에 큰 영향을 미치며 나타난 현상으로, 기술 패권 경쟁, 경제·사회적 변화, 그리고 다양한 우려 사항을 야기하고 있다. - 컴퓨터 비전 - 합성곱 신경망
합성곱 신경망(CNN)은 이미지, 영상 등 시각 데이터 처리에 특화된 인공 신경망으로, 합성곱층, 풀링층, 완전 연결층으로 구성되어 특징 추출, 차원 축소, 최종 분류 또는 예측을 수행하며 이미지 인식, 영상 분석, 자연어 처리 등 다양한 분야에 응용된다. - 컴퓨터 비전 - 광학 흐름
광학 흐름은 비디오나 이미지에서 보이는 객체, 표면, 엣지의 움직임 패턴을 나타내며, 움직임 예측, 비디오 압축, 장면 구조 추정, 로봇 내비게이션 등 다양한 분야에 활용되는 중요한 기술이다.
컴퓨터 비전 | |
---|---|
지도 정보 | |
개요 | |
분야 | 인공지능, 컴퓨터 과학 |
목표 | 이미지 및 비디오에서 의미 있는 정보를 추출하는 것 |
관련 분야 | 이미지 처리 패턴 인식 기계 학습 |
방법론 | 객체 감지 이미지 분할 얼굴 인식 모션 캡처 영상 분석 3차원 재구성 특징 추출 |
응용 분야 | 로봇 공학 의료 영상 보안 시스템 자율 주행 자동차 증강 현실 (AR) 및 가상 현실 (VR) 광학 문자 인식 (OCR) 이미지 검색 감시 시스템 제조업 품질 관리 농업 스포츠 분석 |
핵심 기술 | 딥 러닝 합성곱 신경망 (CNN) 이미지 처리 알고리즘 |
역사 | |
초기 단계 | 1960년대 - 1970년대, 간단한 특징 추출과 패턴 인식 |
발전 단계 | 1980년대 - 1990년대, 더 복잡한 알고리즘과 모델 개발 |
딥러닝 혁명 | 2010년대 이후, 딥러닝과 대량 데이터 기반의 급격한 발전 |
주요 연구 분야 | |
이미지 분류 | 이미지에 포함된 객체나 장면 인식 |
객체 감지 | 이미지 내 특정 객체의 위치 및 분류 |
이미지 분할 | 이미지 내 각 픽셀에 대한 의미 있는 레이블 부여 |
특징 추출 | 이미지에서 유용한 정보를 나타내는 특징점 또는 벡터 추출 |
동작 인식 | 비디오에서 사람이나 물체의 움직임 분석 및 해석 |
3차원 복원 | 2차원 이미지를 사용하여 3차원 모델 생성 |
영상 이해 | 영상의 내용과 의미에 대한 종합적인 분석 |
내용 기반 이미지 검색 | 이미지의 시각적 특징을 기반으로 유사 이미지 검색 |
생성 모델 | 주어진 데이터 분포에 따라 새로운 이미지를 생성 |
주요 연구 기관 | |
연구 기관 | 주요 대학 및 연구소의 컴퓨터 비전 연구실 구글 리서치 페이스북 AI 연구소 마이크로소프트 리서치 IBM 연구소 |
학술지 및 학회 | IEEE Conference on Computer Vision and Pattern Recognition (CVPR) International Conference on Computer Vision (ICCV) European Conference on Computer Vision (ECCV) IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) International Journal of Computer Vision (IJCV) |
관련 기술 및 응용 분야의 윤리적 문제 | |
윤리적 문제 | 개인 정보 침해 문제 데이터 편향 문제 감시 및 통제 악용 가능성 자동화에 따른 일자리 감소 |
주요 데이터셋 | |
데이터셋 | ImageNet COCO (Common Objects in Context) MNIST CIFAR-10 Cityscapes Dataset |
2. 정의
컴퓨터 비전은 디지털 이미지나 비디오로부터 높은 수준의 이해를 얻기 위해 컴퓨터를 만드는 방법을 다루는 학제간 연구 분야이다. 공학의 관점에서 볼 때, 인간의 시각 시스템이 수행할 수 있는 작업을 자동화하는 것을 목표로 한다. "컴퓨터 비전은 단일 이미지 또는 일련의 이미지에서 유용한 정보를 자동으로 추출, 분석 및 이해하는 것과 관련이 있다. 자동 시각적 이해를 달성하기 위한 이론적 및 알고리즘 기반의 개발이 포함된다."[1] 과학 분야로서 컴퓨터 비전은 이미지에서 정보를 추출하는 인공 시스템 뒤에 있는 이론과 관련이 있다. 이미지 데이터는 비디오 시퀀스, 여러 카메라의 뷰, 의료 스캐너의 다차원 데이터 등 다양한 형태를 취할 수 있다.[2] 기술 분야로서 컴퓨터 비전은 컴퓨터 비전 시스템 구축을 위한 이론과 모델을 적용하려고 한다. 머신 비전은 특히 공장 자동화의 맥락에서 시스템 엔지니어링 분야를 의미하며, 최근에는 컴퓨터 비전과 머신 비전이라는 용어가 더 많이 융합되었다.[3]
1960년대 후반, 인공 지능을 개척하던 대학들에서 컴퓨터 비전이 시작되었다. 이것은 로봇에 지능적인 행동을 부여하기 위한 발판으로 인간의 시각 시스템을 모방하기 위한 것이었다. 1966년에는 카메라를 컴퓨터에 연결하고 "본 것을 설명"하도록 함으로써 학부생의 여름 프로젝트를 통해 달성될 수 있다고 여겨졌다.[4]
컴퓨터 비전은 여러 학문 분야와 겹치거나 관련된 분야를 가지고 있다.
3. 역사
당시 디지털 영상 처리 분야와 컴퓨터 비전을 구분 짓는 것은 이미지에서 3차원 구조를 추출하여 전체 장면을 이해하려는 목표였다. 1970년대의 연구는 오늘날 존재하는 많은 컴퓨터 비전 알고리즘의 초기 기반을 형성했는데, 여기에는 이미지에서 에지 추출, 선 라벨링, 비다면체 및 다면체 모델링, 작은 구조의 상호 연결로서의 객체 표현, 광학 흐름, 그리고 움직임 추정이 포함된다.
그 후 10년 동안은 컴퓨터 비전의 더욱 엄격한 수학적 분석과 정량적 측면에 기반한 연구가 진행되었다. 여기에는 스케일 공간의 개념, 음영, 질감 및 초점과 같은 다양한 단서로부터의 형태 추론, 그리고 뱀으로 알려진 윤곽 모델이 포함된다.[5]
1990년대가 되자 이전 연구 주제 중 일부는 다른 주제보다 더 활발해졌다. 투영 3-D 재구성에 대한 연구는 카메라 보정에 대한 더 나은 이해로 이어졌다. 여러 이미지로부터 장면의 3-D 재구성 방법, 밀집 스테레오 대응 문제와 추가적인 다중 뷰 스테레오 기술에 대한 진전이 있었다. 동시에 그래프 컷의 변형이 영상 분할을 해결하는 데 사용되었다. 이 시기는 통계적 학습 기술이 실제로 이미지에서 얼굴을 인식하는 데 사용된 최초의 시기이기도 하다(고유 얼굴 참조). 1990년대 후반에는 컴퓨터 그래픽스와 컴퓨터 비전 분야 간의 상호 작용 증가와 함께 상당한 변화가 있었다. 여기에는 이미지 기반 렌더링, 이미지 모핑, 뷰 보간, 파노라마 이미지 스티칭 및 초기 광선 필드 렌더링이 포함된다.
최근 연구에서는 기계 학습, 특히 딥러닝 기술과 함께 사용되는 특징 기반 방법의 부활을 보았다.[6][7] 심층 학습 알고리즘의 정확도는 분류,[8] 분할 및 광학 흐름에 이르기까지 다양한 작업에 대한 여러 벤치마크 컴퓨터 비전 데이터 세트에서 이전 방법을 능가했다.[9]
4. 관련 분야
컴퓨터 비전과 유사하지만, 다른 분야는 다음과 같다.4. 1. 고체 물리학
고체물리학은 컴퓨터 비전과 밀접하게 관련된 분야이다. 대부분의 컴퓨터 비전 시스템은 가시광선, 적외선, 자외선 형태의 전자기파를 감지하는 영상 센서에 의존한다. 이러한 센서는 양자 물리학을 이용하여 설계된다. 빛이 표면과 상호 작용하는 과정과 광학의 동작은 물리학을 사용하여 설명된다. 정교한 영상 센서의 경우 영상 형성 과정을 পুরোপুরি 이해하기 위해 양자역학이 필요하기도 하다. 또한, 유체의 운동과 같이 물리학의 다양한 측정 문제는 컴퓨터 비전을 이용하여 해결될 수 있다.
4. 2. 신경 생물학
인간과 동물의 시각 자극 처리에 대한 연구는 컴퓨터 비전 알고리즘 발전에 큰 영향을 미쳤다. 인공 신경망, 심층 학습 등은 신경생물학에 기반을 두고 있다. 1970년대 후쿠시마 구니히코가 개발한 신경망인 네오코그니트론은 컴퓨터 비전이 신경생물학, 특히 일차 시각 피질에서 직접 영감을 얻은 초기 사례이다.
생물학적 시각 분야는 인간과 다른 동물의 시각적 지각 뒤에 있는 생리적 과정을 연구하고 모델링한다. 반면 컴퓨터 비전은 인공 시각 시스템 뒤에 있는 소프트웨어와 하드웨어에 구현된 알고리즘을 개발하고 설명한다. 생물학적 시각과 컴퓨터 비전 간의 학제 간 교류는 두 분야 모두에 유익한 것으로 입증되었다.
4. 3. 신호 처리
일반적으로 시간 신호인 단변수 신호를 처리하는 많은 방법들은 컴퓨터 비전에서 이변수 신호 또는 다변수 신호 처리로 자연스럽게 확장될 수 있다. 그러나 이미지의 특수한 특성 때문에 컴퓨터 비전 내에서 개발된 단변수 신호 처리에는 없는 많은 방법들이 있다. 신호의 다차원성과 함께 이것은 컴퓨터 비전의 일부로서 신호 처리의 하위 분야를 정의한다.
4. 4. 로봇 내비게이션
로봇 내비게이션은 로봇 시스템이 환경을 이동하기 위한 자율적인 경로 계획 또는 숙고를 다루는 경우가 있다.[11] 이러한 환경을 이동하기 위해서는 환경에 대한 자세한 이해가 필요하다. 환경에 대한 정보는 컴퓨터 비전 시스템에 의해 제공될 수 있으며, 이는 비전 센서 역할을 하여 환경과 로봇에 대한 고급 정보를 제공한다.
4. 5. 시각 컴퓨팅
시각 컴퓨팅은 컴퓨터 그래픽스, 컴퓨터 비전, 기계 학습 등을 통합하여 시각 정보를 처리하고 이해하는 분야이다.[1]
4. 6. 기타 분야
컴퓨터 비전의 많은 방법들은 통계학, 최적화 또는 기하학에 기반한다.[12] 컴퓨터 비전은 패션 전자상거래, 재고 관리, 특허 검색, 가구 및 미용 업계에서도 사용된다.[12]
4. 7. 다른 분야와의 차이점
영상 처리 및 영상 분석은 2D 영상에 초점을 맞추며, 픽셀 단위 연산 또는 기하학적 변환과 같이 하나의 영상을 다른 영상으로 변환하는 방법에 중점을 둔다.[13] 반면 컴퓨터 비전은 2D 영상에서 3D 분석을 포함하며, 하나 이상의 영상에서 3D 장면에 대한 구조 또는 기타 정보를 재구성하는 방법을 분석한다.[13]
머신 비전은 산업 응용 분야, 특히 제조 분야에서 영상 기반 자동 검사, 공정 제어 및 로봇 유도를 제공하기 위해 다양한 기술과 방법을 적용하는 프로세스이다.[14]
영상 과학은 주로 영상 생성 과정에 중점을 두지만 때로는 영상 처리 및 분석도 다룬다. 의료 영상이 그 예시이다.[15]
패턴 인식은 주로 통계적 접근 방식과 인공 신경망을 기반으로 신호에서 정보를 추출하는 다양한 방법을 사용하는 분야이다.[16]
사진 측량은 컴퓨터 비전과 중복되는 분야로, 입체 사진 측량과 컴퓨터 입체 시각이 그 예시이다.
5. 응용 분야
컴퓨터 비전은 제조 공정에서 빠르게 움직이는 제품을 검사하는 산업용 머신 비전 시스템부터, 주변 환경을 이해하는 인공지능 및 로봇 연구에 이르기까지 다양한 분야에 응용된다. 컴퓨터 비전은 자동화된 영상 분석의 핵심 기술을 다루며, 머신 비전은 이를 다른 기술과 결합하여 산업 현장에서 자동 검사 및 로봇 안내를 제공한다.
컴퓨터 비전의 응용 분야는 다음과 같다.
- 자동 검사 (예: 제조 응용 프로그램)
- 식별 작업 지원 (예: 종 식별 시스템)[17]
- 프로세스 제어 (예: 산업용 로봇)
- 이벤트 감지 (예: 영상 감시, 사람 계수)
- 상호 작용 (예: 컴퓨터-인간 상호 작용 장치 입력)
- 농업 작물 모니터링 (예: 딸기 질병 자동 감지)[19]
- 개체 또는 환경 모델링 (예: 의료 영상 분석, 지형 모델링)
- 탐색 (예: 자율 주행 차량, 모바일 로봇)
- 정보 구성 (예: 이미지 및 이미지 시퀀스 데이터베이스 색인)
- 증강 현실

5. 1. 의학
의료 영상 처리 또는 의료 컴퓨터 비전은 환자를 진단하기 위해 영상 데이터에서 정보를 추출하는 것이 특징이다. 진단의 예로는 종양, 동맥경화증 또는 기타 악성 변화와 다양한 치과 질환의 탐지가 있으며, 장기 크기, 혈류 등의 측정도 또 다른 예이다.[13] 또한 뇌 구조나 의료 치료의 질에 대한 새로운 정보를 제공함으로써 의학 연구를 지원한다. 의료 분야에서 컴퓨터 비전의 응용에는 초음파 영상이나 X선 영상과 같이 사람이 해석하는 영상의 향상을 통해 노이즈의 영향을 줄이는 것도 포함된다.5. 2. 머신 비전
산업 분야에서 생산 공정을 지원하기 위해 정보를 추출하는 데 사용되는 컴퓨터 비전을 머신 비전이라고도 부른다. 머신 비전의 한 예로 품질 관리가 있는데, 제품의 세부 사항이나 최종 제품을 자동으로 검사하여 불량을 찾는다. 이러한 검사에서 가장 널리 사용되는 분야 중 하나는 웨이퍼 산업으로, 사용할 수 없는 컴퓨터 칩이 시장에 출시되는 것을 방지하기 위해 모든 웨이퍼를 측정하고 불량을 검사한다.[13] 또 다른 예로 로봇 암이 집어 올릴 세부 사항의 위치와 방향을 측정하는 것이 있다. 머신 비전은 벌크 재료에서 원치 않는 식품을 제거하는 농업 공정에도 많이 사용되는데, 이를 광학 선별이라고 한다.5. 3. 군사
군사 응용 분야는 컴퓨터 비전의 가장 큰 분야 중 하나이다. 명백한 예로는 적군 병사나 차량 탐지 및 미사일 유도가 있다. 더욱 발전된 미사일 유도 시스템은 특정 목표물이 아닌 특정 지역으로 미사일을 발사하며, 미사일이 그 지역에 도달하면 현지에서 획득한 영상 데이터를 기반으로 목표물을 선택한다. "전장 인식"과 같은 현대 군사 개념은 영상 센서를 포함한 다양한 센서가 전투 상황에 대한 풍부한 정보를 제공하여 전략적 의사 결정을 지원할 수 있음을 의미한다. 이 경우, 데이터의 자동 처리를 통해 복잡성을 줄이고 여러 센서의 정보를 융합하여 신뢰성을 높인다.5. 4. 자율 주행 차량
컴퓨터 비전은 자율 주행 차량의 내비게이션에 활용된다. 여기에는 잠수함, 지상 차량(소형 로봇, 자동차, 트럭 등), 항공기, 무인 항공기(UAV) 등이 포함된다. 자율성의 수준은 완전 자율 주행(무인) 차량부터 운전자나 조종사를 지원하는 시스템까지 다양하다. 완전 자율 주행 차량은 자신의 위치 파악, 환경 매핑(SLAM), 장애물 감지 등에 컴퓨터 비전을 사용한다. 또한 산불 감지와 같은 특정 작업 관련 이벤트를 감지하는 데에도 활용된다.[11]자동차의 장애물 경고 시스템, 항공기의 자율 착륙 시스템 등이 지원 시스템의 예시이다. 여러 자동차 제조업체들이 자율 주행 자동차 시스템을 시연하고 있다. 군사용으로는 첨단 미사일부터 정찰 임무, 미사일 유도를 위한 무인 항공기까지 다양한 자율 주행 차량이 존재한다. NASA의 큐리오시티와 CNSA의 옥토끼 2호(Yutu-2) 로버처럼 우주 탐사에도 컴퓨터 비전을 사용하는 자율 주행 차량이 활용되고 있다.[11]

5. 5. 촉각 피드백
고무 및 실리콘과 같은 재료는 미세한 요철을 감지하고 로봇 손을 보정하는 등의 응용 분야를 위한 센서를 만드는 데 사용되고 있다. 고무를 사용하여 손가락 위에 놓을 수 있는 몰드를 만들 수 있으며, 이 몰드 안에는 여러 개의 스트레인 게이지가 있다. 그런 다음 손가락 몰드와 센서를 고무 핀 어레이가 있는 작은 고무판 위에 놓을 수 있다. 사용자가 손가락 몰드를 착용하고 표면을 따라 그리면, 컴퓨터는 스트레인 게이지의 데이터를 읽고 하나 이상의 핀이 위쪽으로 밀리는지 측정할 수 있다. 핀이 위쪽으로 밀리면 컴퓨터는 이를 표면의 결함으로 인식할 수 있다. 이러한 종류의 기술은 매우 큰 표면의 결함에 대한 정확한 데이터를 수신하는 데 유용하다.[20]이러한 손가락 몰드 센서의 또 다른 변형은 실리콘에 매달린 카메라가 포함된 센서이다. 실리콘은 카메라의 외부를 돔 형태로 감싸고, 실리콘에는 균일하게 간격을 두고 점 표식이 내장되어 있다. 그런 다음 이러한 카메라를 로봇 손과 같은 장치에 배치하여 컴퓨터가 매우 정확한 촉각 데이터를 수신할 수 있도록 할 수 있다.[21]


5. 6. 기타 응용 분야
6. 일반적인 작업
컴퓨터 비전 작업에는 영상 획득, 처리, 분석 및 디지털 이미지에서 수치 또는 기호 정보(예: 의사 결정)를 생성하기 위해 실세계의 고차원 데이터를 추출하는 방법이 포함된다. 여기서 '이해'는 시각 이미지(망막 입력)를 다른 사고 과정과 연결하고 적절한 행동을 유발할 수 있는 세계에 대한 설명으로 변환하는 것을 의미한다. 이미지 이해는 기하학, 물리학, 통계, 학습 이론을 바탕으로 모델을 구성하여 이미지 데이터에서 기호 정보를 분리하는 것으로 볼 수 있다.
컴퓨터 비전에는 다양한 방법으로 해결할 수 있는, 명확하게 정의된 측정 문제 또는 처리 문제가 포함된다.
6. 1. 인식
객체 인식(객체 분류라고도 함)은 사전에 지정되거나 학습된 객체 또는 객체 클래스를 인식하는 것을 말하며, 일반적으로 영상에서의 2D 위치 또는 장면에서의 3D 자세와 함께 인식됩니다. Blippar, 구글 고글, LikeThat은 이 기능을 보여주는 독립 실행형 프로그램입니다.[26]'''식별'''은 객체의 개별 인스턴스를 인식하는 것입니다. 예를 들어 특정 사람의 얼굴이나 지문 식별, 필기체 숫자 식별, 특정 차량 식별 등이 있습니다.[26]
'''탐지'''는 영상 데이터에서 특정 객체와 해당 위치를 검색하는 것입니다. 예를 들어 자동차 시야 내 장애물 탐지, 의료 영상에서의 비정상 세포 또는 조직 탐지, 자동 도로 통행료 시스템에서의 차량 탐지 등이 있습니다. 비교적 간단하고 빠른 계산을 기반으로 하는 탐지는 때때로 더 많은 계산이 필요한 기법으로 더 자세히 분석할 수 있는 흥미로운 영상 데이터의 작은 영역을 찾는 데 사용됩니다.[26]
현재 이러한 작업에 가장 적합한 알고리즘은 합성곱 신경망을 기반으로 합니다. ImageNet 대규모 시각적 인식 챌린지는 수백만 개의 이미지와 1,000개의 객체 클래스를 사용하는 객체 분류 및 탐지의 벤치마크입니다.[27] ImageNet 테스트에서 합성곱 신경망의 성능은 이제 인간의 성능에 근접합니다.[27] 최고의 알고리즘조차도 작거나 얇은 객체(예: 꽃 줄기에 있는 작은 개미나 깃펜을 들고 있는 사람)를 인식하는 데 어려움을 겪습니다. 또한 필터로 왜곡된 이미지(최신 디지털 카메라에서 점점 더 일반적인 현상)도 문제가 됩니다. 반대로 이러한 종류의 이미지는 인간에게는 거의 문제가 되지 않습니다. 그러나 인간은 다른 문제에 어려움을 겪는 경향이 있습니다. 예를 들어, 특정 견종이나 조류 종과 같이 세분화된 클래스로 객체를 분류하는 것은 잘하지 못하는 반면, 합성곱 신경망은 이를 쉽게 처리합니다.
6. 2. 인식 기반 특수 작업
- '''콘텐츠 기반 이미지 검색''': 더 큰 이미지 집합에서 특정 콘텐츠를 가진 모든 이미지를 찾는 것입니다. 콘텐츠는 여러 가지 방법으로 지정할 수 있는데, 예를 들어 역 이미지 검색 기술을 사용하여 대상 이미지와 유사한 이미지를 찾거나, 텍스트 입력을 통해 "많은 집이 있고, 겨울에 촬영되었으며, 자동차가 없는 모든 이미지"와 같이 고급 검색 기준을 지정할 수 있습니다.

- '''자세 추정''': 카메라를 기준으로 특정 객체의 위치나 방향을 추정하는 것입니다. 예를 들어, 조립 라인에서 컨베이어 벨트 위의 물체를 집거나 상자에서 부품을 꺼내는 로봇 팔을 돕는 데 사용될 수 있습니다.
- '''광학 문자 인식'''(OCR): 인쇄되거나 손으로 쓴 텍스트 이미지에서 문자를 식별하는 기술입니다. 일반적으로 텍스트를 편집하거나 색인하기 쉬운 ASCII 형식으로 변환합니다. 데이터 매트릭스나 QR 코드와 같은 2D 코드를 읽는 것도 관련 작업입니다.
- '''안면 인식''': 디지털 이미지나 비디오 프레임에서 얼굴을 찾아 안면 데이터베이스와 대조하는 기술입니다. 현재 모바일 휴대폰의 페이스락, 스마트 도어 잠금 장치 등에 널리 사용됩니다.[28]
- '''감정 인식''': 안면 인식의 하위 집합으로, 인간의 감정을 분류하는 과정을 말합니다. 그러나 심리학자들은 얼굴 표정만으로 내면의 감정을 정확히 판단하기 어렵다고 경고합니다.[29]
- '''형태 인식 기술'''(SRT): 사람 계수기 시스템에서 사람(머리와 어깨 패턴)을 물체와 구분하는 데 사용됩니다.
- '''인간 활동 인식''': 사람이 물건을 집거나 걷는 등 일련의 비디오 프레임에서 특정 활동을 인식하는 기술입니다.
6. 3. 동작 분석
자기 운동은 카메라에서 생성된 영상 시퀀스로부터 카메라의 3D 강체 운동(회전 및 병진)을 결정한다.[25] 영상 추적은 영상 시퀀스에서 관심 지점 또는 객체(예: 차량, 물체, 사람 또는 기타 유기체)의 움직임을 추적한다.[25] 이는 대부분의 고속 기계류를 이러한 방식으로 모니터링할 수 있으므로 광범위한 산업 응용 분야가 있다. 광학 흐름은 영상의 각 지점에 대해 해당 지점이 영상 평면에 대해 어떻게 움직이는지, 즉 겉보기 운동을 결정한다.[25] 이러한 운동은 장면에서 해당 3D 지점이 어떻게 움직이고 카메라가 장면에 대해 어떻게 움직이는지에 따라 달라진다.6. 4. 장면 재구성
하나 이상의(대개 그렇다) 장면 이미지 또는 비디오가 주어지면, 장면 재구성은 장면의 3차원 모델을 계산하는 것을 목표로 한다. 가장 단순한 경우, 모델은 3차원 점들의 집합일 수 있다. 더 정교한 방법은 완전한 3차원 표면 모델을 생성한다. 움직임이나 스캐닝이 필요 없는 3차원 이미징 및 관련 처리 알고리즘의 출현은 이 분야의 빠른 발전을 가능하게 하고 있다. 격자 기반 3차원 감지(Grid-based 3D sensing)는 여러 각도에서 3차원 이미지를 획득하는 데 사용될 수 있다. 여러 개의 3차원 이미지를 점 구름(point clouds)과 3차원 모델로 결합하는 알고리즘이 현재 이용 가능하다.6. 5. 영상 복원
영상 복원은 렌즈의 초점 불량, 전송 간섭, 낮은 조도, 또는 움직임 흐림 등과 같은 외부 요인으로 인해 원본 영상이 품질 저하되거나 손상될 때(이를 노이즈라고 함) 중요해진다. 영상이 저하되거나 손상되면, 영상에서 추출해야 할 정보도 손상된다. 따라서 원래 의도된 대로 영상을 복구하거나 복원해야 한다. 영상 복원의 목표는 영상에서 노이즈(센서 노이즈, 움직임 흐림 등)를 제거하는 것이다. 노이즈 제거를 위한 가장 간단한 방법은 저역 통과 필터나 중앙값 필터와 같은 다양한 유형의 필터를 사용하는 것이다. 보다 정교한 방법은 노이즈와 구별하기 위해 국부 영상 구조가 어떻게 보이는지에 대한 모델을 가정한다. 선이나 가장자리와 같은 국부 영상 구조 측면에서 영상 데이터를 분석한 다음, 분석 단계의 국부 정보를 기반으로 필터링을 제어함으로써, 간단한 방법에 비해 일반적으로 더 높은 수준의 노이즈 제거를 얻을 수 있다.이 분야의 한 예로는 이미지 복원이 있다.
7. 시스템 방법
컴퓨터 비전 시스템은 응용 분야에 따라 그 구성이 매우 다양하다. 그러나 대부분의 컴퓨터 비전 시스템은 영상 획득, 전처리, 특징 추출, 검출/분할, 고급 처리, 의사 결정 등 몇 가지 일반적인 기능을 공유한다. 이러한 기능에 대한 자세한 설명은 하위 섹션에서 다룬다.
7. 1. 일반적인 기능
컴퓨터 비전 시스템은 응용 분야에 따라 기능이 특화되어 있지만, 일반적으로 다음과 같은 기능을 포함한다.- '''영상 획득:''' 디지털 영상은 영상 센서에 의해 생성된다. 영상 센서에는 다양한 유형의 광 감지 카메라 외에도 거리 센서, 단층 촬영 장치, 레이더, 초음파 카메라 등이 포함된다. 센서에 따라 2D 영상, 3D 볼륨, 영상 시퀀스 등의 영상 데이터가 생성되며, 픽셀 값은 광 강도, 깊이, 흡수/반사율 등 다양한 물리적 측정값과 관련될 수 있다.
- '''전처리:''' 컴퓨터 비전 방법을 적용하기 전에 특정 가정을 만족하도록 데이터를 처리한다. 예를 들어, 영상 좌표계 정확성을 위한 재샘플링, 노이즈 감소, 명암 향상, 스케일 공간 표현 등이 있다.
- '''특징 추출:''' 다양한 복잡성 수준의 영상 특징을 추출한다. 에지, 릿지, 국소화된 모서리, 블롭 등이 일반적인 특징이며, 질감, 모양, 움직임과 관련된 더 복잡한 특징도 추출될 수 있다.
- '''검출/분할:''' 후속 처리에 관련된 영상 점 또는 영상 영역을 결정한다. 예를 들어, 특정 관심 영역 선택, 객체 포함 영상 영역 분할, 전경/객체/주목도 높은 객체 부분 분할 등이 있다.
- '''고급 처리:''' 소량의 데이터(점 집합, 영상 영역 등)를 입력으로 받아, 데이터 확인, 응용 프로그램 특정 매개변수(객체 자세, 크기 등) 추정, 영상 인식, 영상 등록 등의 작업을 처리한다.
- '''의사 결정:''' 자동 검사(합격/불합격), 인식(일치/불일치) 등 응용 프로그램에 필요한 최종 결정을 내린다.
8. 영상 이해 시스템 (IUS)
영상 이해 시스템(IUS)은 세 가지 추상화 수준을 포함한다. 저수준은 모서리, 질감 요소 또는 영역과 같은 영상 기본 요소를 포함하고, 중간 수준은 경계, 표면 및 부피를 포함하며, 고수준은 객체, 장면 또는 이벤트를 포함한다. 이러한 요구 사항의 상당 부분은 추가 연구 과제이다.[34]
IUS 설계에서의 표현 요구 사항은 다음과 같다.
- 원형 개념의 표현
- 개념 구성
- 공간 지식
- 시간 지식
- 스케일링
- 비교 및 차별화에 의한 설명
추론은 현재 알려진 사실로부터 명시적으로 표현되지 않은 새로운 사실을 도출하는 과정을 의미하는 반면, 제어는 처리의 특정 단계에서 많은 추론, 탐색 및 일치 기술 중 어떤 것을 적용해야 하는지를 선택하는 과정을 의미한다. IUS에 대한 추론 및 제어 요구 사항은 다음과 같다.
- 탐색 및 가설 활성화
- 일치 및 가설 검정
- 기대의 생성 및 사용
- 변화 및 주의 집중
- 확실성 및 신념의 강도
- 추론 및 목표 만족
9. 하드웨어
컴퓨터 비전 시스템에는 여러 종류가 있지만, 모두 기본적으로 다음 요소를 포함한다.
- 전원
- 하나 이상의 영상 획득 장치 (카메라, CCD 등)
- 프로세서
- 제어 및 통신 케이블 또는 무선 상호 연결 메커니즘
또한 실용적인 비전 시스템은 소프트웨어뿐만 아니라 시스템 모니터링을 위한 디스플레이도 포함한다. 대부분의 산업용 비전 시스템처럼 실내용 비전 시스템은 조명 시스템을 포함하며, 제어된 환경에 설치될 수 있다.[35] 완성된 시스템에는 카메라 지지대, 케이블 및 커넥터와 같은 많은 부속품이 포함된다.
대부분의 컴퓨터 비전 시스템은 초당 최대 60프레임(보통 그보다 훨씬 느림)의 속도로 장면을 수동으로 보는 가시광선 카메라를 사용한다.
일부 컴퓨터 비전 시스템은 구조광 3D 스캐너, 열화상 카메라, 초분광 이미저, 레이더 영상, 라이다 스캐너, 자기 공명 영상, 사이드 스캔 소나, 합성 개구 소나 등과 같이 능동 조명이나 가시광선 이외의 다른 것을 사용하는 영상 획득 하드웨어 또는 둘 다를 사용한다. 이러한 하드웨어는 가시광선 이미지를 처리하는 데 사용되는 것과 동일한 컴퓨터 비전 알고리즘을 사용하여 종종 처리되는 "이미지"를 캡처한다.
디지털 신호 처리 및 소비자 그래픽 하드웨어의 발전으로 초당 수백에서 수천 프레임의 순서로 실시간 시스템에 대한 고속 이미지 획득, 처리 및 디스플레이가 가능해졌다. 로봇 공학 분야의 응용 프로그램에서 고속 실시간 비디오 시스템은 매우 중요하며, 특정 알고리즘에 필요한 처리를 단순화할 수 있다. 고속 프로젝터와 결합하면 고속 이미지 획득을 통해 3D 측정 및 특징 추적을 실현할 수 있다.[35]
자기중심 시각 시스템은 1인칭 관점에서 자동으로 사진을 찍는 웨어러블 카메라로 구성된다.
2016년 현재 영상 처리 장치(VPU)는 이 역할에서 CPU와 그래픽 처리 장치(GPU)를 보완하는 새로운 유형의 프로세서로 등장하고 있다.[36]

참조
[1]
웹사이트
The British Machine Vision Association and Society for Pattern Recognition
http://www.bmva.org/[...]
2017-02-16
[2]
웹사이트
Star Trek's "tricorder" medical scanner just got closer to becoming a reality
https://qz.com/95728[...]
2017-04-13
[3]
서적
Computer Vision Principles, algorithms, Applications, Learning
Academic Press, Elsevier
2018
[4]
서적
The deep learning revolution
The MIT Press
2018
[5]
서적
Three-Dimensional Machine Vision
https://books.google[...]
Springer Science & Business Media
2012-12-06
[6]
서적
Machine Learning in Computer Vision
https://books.google[...]
Springer Science & Business Media
2005-06-03
[7]
논문
Guest Editorial: Machine Learning for Computer Vision
2008
[8]
논문
Deep Learning
https://hal.science/[...]
[9]
논문
A Survey of Deep Learning-Based Object Detection
[10]
서적
Neural Networks for Babies
Sourcebooks
[11]
논문
Stereo vision-based mapping and navigation for mobile robots
http://citeseerx.ist[...]
IEEE
2020-10-31
[12]
웹사이트
Computational Vision and Business Intelligence in the Beauty Segment - An Analysis through Instagram
http://jmm-net.com/j[...]
American Research Institute for Policy Development
[13]
논문
2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
[14]
웹사이트
The Future of Automated Random Bin Picking
https://www.robots.c[...]
[15]
논문
Deep learning-enabled medical computer vision
2021-01-08
[16]
논문
Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network
[17]
논문
Plant Species Identification Using Computer Vision Techniques: A Systematic Literature Review
2017-01-07
[18]
논문
Optimizing Strawberry Disease and Quality Detection with Vision Transformers and Attention-Based Convolutional Neural Networks
2024-01
[19]
뉴스
New AI model developed at Western detects strawberry diseases, takes aim at waste
https://london.ctvne[...]
2024-09-13
[20]
논문
Rubber artificial skin layer with flexible structure for shape estimation of micro-undulation surfaces
2020-03-03
[21]
논문
Dexterous object manipulation by a multi-fingered robotic hand with visual-tactile fingertip sensors
2020-03-12
[22]
논문
2020 International Conference on Power Electronics & IoT Applications in Renewable Energy and its Control (PARC)
2020-02-29
[23]
논문
2021 29th Conference of Open Innovations Association (FRUCT)
2021-05-14
[24]
논문
Computer vision based fatigue detection using facial parameters
2020-12-01
[25]
논문
trackdem: Automated particle tracking to obtain population counts and size distributions from videos in r
[26]
서적
Computer vision: a modern approach
Pearson
2012
[27]
논문
ImageNet Large Scale Visual Recognition Challenge
http://link.springer[...]
2015-12
[28]
웹사이트
AI Image Recognition: Inevitable Trending of Modern Lifestyle
https://topten.ai/ai[...]
2022-10-09
[29]
논문
Emotional Expressions Reconsidered: Challenges to Inferring Emotion From Human Facial Movements
2019-07
[30]
arXiv
Improvised Salient Object Detection and Manipulation
[31]
논문
Visual Taxometric Approach to Image Segmentation Using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions
http://www.lirmm.fr/[...]
Springer International Publishing
2018-11-14
[32]
논문
Joint Video Object Discovery and Segmentation by Coupled Dynamic Markov Networks
https://web.archive.[...]
[33]
논문
Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation
https://qilin-zhang.[...]
2018-05-22
[34]
서적
Encyclopedia of Artificial Intelligence, Volume 1
John Wiley & Sons, Inc.
[35]
논문
2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops
2010
[36]
웹사이트
A Third Type Of Processor For VR/AR: Movidius' Myriad 2 VPU
http://www.tomshardw[...]
2016-01-03
[37]
논문
Computer Vision : Evolution And Promise
CERN
1996-11-19
관련 사건 타임라인
( 최근 20개의 뉴스만 표기 됩니다. )
한양대 최정욱 교수팀, 로봇 제어 효율성을 극대화하는 주목 기반 양자화 모방학습 기술 개발
마비 환자 조종능력, 인공지능 붙였더니 4배 향상
서울과기대, 제4회 국방 AI+X 해커톤 성황리 개최
에프앤자산평가, 서울대 KDT와 AI 금융정보 자동화 시스템 개발협력
비거라지, 현대글로비스에 드론 기반 재고 관리 시스템 공급 – 바이라인네트워크
비거라지, 현대글로비스에 드론 기반 재고 관리 시스템 공급
서강대, ‘차세대 국방 의사결정지원 시스템 세미나’ 개최
슈퍼브에이아이 “AI 도입 장벽 ‘제로’로 만들겠다” – 바이라인네트워크
공간 영상 찍으면 3D데이터로 ‘뚝딱’…매출 60%를 미국대기업서 올려
크라우드웍스, AI 학습용 데이터 거래소 개설 – 바이라인네트워크
팀네이버, 컴퓨터비전 학회서 공간지능·AI 글로벌 기술력 입증 – 바이라인네트워크
유아이패스, 25일 ‘2025 AI 서밋’ 온라인 개최 – 바이라인네트워크
구글, 엔비디아 이어 메타까지…네이버랩스 '공간지능' 주목
연세대 공학인공지능연구소, 창립 140주년 기념 ‘공학 AI Plus 포럼’ 개최
[그게 뭔가요] 아마존이 만든 로봇 총정리 – 바이라인네트워크
“AI로 실시간 수어 통역” 사인 스피크 – 바이라인네트워크
메이아이, AI 전문가 이종석 연세대 교수 기술 고문으로 영입 – 바이라인네트워크
웹캠만으로 데이터 탈취 방지하는 SEEU ON – 바이라인네트워크
[그게 뭔가요] AGI는 무엇이며 어디까지 개발됐을까 – 바이라인네트워크
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com