레이블 데이터

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

레이블 데이터는 인공지능 모델의 훈련을 위해 데이터에 레이블을 지정하는 과정을 의미한다. 데이터 라벨링은 크라우드소싱과 자동화된 방식을 통해 수행될 수 있으며, ImageNet과 같은 대규모 데이터베이스 구축에 활용된다. 데이터 라벨링 과정에서는 데이터 기반 편향, 인간의 오류 및 비일관성, 도메인 전문성 부족과 같은 과제가 발생할 수 있으며, 이는 머신러닝 모델의 성능에 영향을 미칠 수 있다.

레이블 데이터

정의	레이블이 하나 이상 태그된 샘플 그룹
설명	레이블 데이터는 기계 학습 모델을 학습시키는 데 사용되는 데이터 세트에서 개별적으로 태그되거나 레이블이 지정된 데이터의 모음임. 레이블 지정은 데이터 세트의 각 데이터 포인트에 유익하고 유용한 태그를 추가하는 프로세스를 의미함. 데이터 레이블은 기계 학습 알고리즘이 학습할 수 있도록 컨텍스트를 추가하므로 기계 학습 알고리즘을 훈련하는 데 중요한 단계임. 레이블은 다양한 형태를 가질 수 있으며 텍스트, 이미지, 비디오 또는 오디오와 같은 원시 데이터에 첨부될 수 있음. 데이터를 정확하게 레이블링하는 데에는 많은 시간과 노력이 소요될 수 있지만, 기계 학습 모델의 성능과 정확성을 향상시키는 데 필수적임.

응용 분야

예시	자율 주행 자동차의 경우, 레이블 데이터는 도로 표지판, 보행자 및 기타 차량을 식별하는 데 사용될 수 있음. 의료 분야에서 레이블 데이터는 질병을 식별하거나 환자 결과를 예측하는 데 사용될 수 있음. 고객 서비스에서 레이블 데이터는 고객 문의를 분류하거나 챗봇을 훈련하는 데 사용될 수 있음.

참고 자료

AWS	데이터 레이블링
Springer	데이터 레이블링: 산업 과제 및 완화 전략에 대한 경험적 조사

📚 더 읽어볼만한 페이지

기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
기계 학습 - 지도 학습
지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.

1. 개요
2. 데이터 라벨링의 유형
- 2.1. 크라우드소싱 기반 데이터 라벨링
- 2.2. 자동화된 데이터 라벨링
3. 데이터 라벨링의 과제

2. 데이터 라벨링의 유형

데이터 라벨링은 크라우드소싱을 이용하거나, 기계 학습 모델을 통해 자동화하는 방식으로 이루어질 수 있다. 크라우드소싱 기반 데이터 라벨링은 페이페이 리 스탠퍼드 대학교 교수가 아마존 메커니컬 터크라는 온라인 마켓플레이스를 활용하여 이미지넷 데이터베이스를 구축한 것이 대표적인 사례이다. 자동화된 데이터 라벨링은 확보된 레이블 데이터를 기반으로 기계 학습 모델을 적용하여 새로운 데이터의 레이블을 예측하는 방식이다.

2.1. 크라우드소싱 기반 데이터 라벨링

페이페이 리 스탠퍼드 대학교 교수는 2006년부터 이미지 인식 인공지능 모델 개선을 위해 훈련 데이터를 늘리는 연구를 시작했다. 2007년에는 아마존 메커니컬 터크라는 온라인 마켓플레이스를 활용하여 데이터 레이블링 작업을 아웃소싱했다. 49,000명 이상의 작업자가 참여하여 레이블을 지정한 320만 개의 이미지는 객체 인식 개요에 대한 대규모 수동 레이블 데이터베이스인 ImageNet의 기반이 되었다.

2.2. 자동화된 데이터 라벨링

레이블이 지정된 데이터를 확보한 후, 기계 학습 모델을 데이터에 적용하여 새로운 레이블이 없는 데이터를 모델에 제시하고, 해당 레이블이 없는 데이터 조각에 대한 예상 레이블을 추측하거나 예측할 수 있다.

3. 데이터 라벨링의 과제

데이터 라벨링에는 여러 과제가 있다. 우선, 알고리즘 기반 의사 결정은 데이터 중심 편향의 영향을 받는다. 편향된 레이블 데이터를 기반으로 학습한 머신러닝 알고리즘은 예측 모델에서 편견과 누락을 초래할 수 있다. 따라서 훈련에 사용되는 레이블 데이터는 통계적으로 대표성을 가져야 한다. 예를 들어, 얼굴 인식 시스템에서 훈련 데이터가 인구를 대표하지 못하면 대표성이 부족한 그룹이 잘못 분류될 수 있다. 2018년 조이 볼라미니와 팀닛 게브루의 연구에 따르면, 얼굴 분석 데이터 세트의 상당 부분이 밝은 피부색의 사람들로 구성되어 있었다.

또한, 인간 주석자는 데이터를 레이블링할 때 오류와 편향을 일으키기 쉽다. 이는 일관성 없는 레이블로 이어져 데이터 세트의 품질에 영향을 미치고, 기계 학습 모델의 일반화 능력을 저해할 수 있다.

의료 영상이나 법률 문서와 같이 특정 분야의 데이터 라벨링에는 해당 분야의 전문 지식이 필요하다. 전문 지식이 부족한 경우, 데이터 라벨링의 정확도가 떨어지고, 이는 기계 학습 모델의 성능 저하로 이어질 수 있다.

3.1. 데이터 기반 편향

알고리즘 기반 의사 결정은 프로그래머 중심 편향뿐만 아니라 데이터 중심 편향의 영향을 받는다. 편향된 레이블 데이터를 기반으로 하는 학습 데이터는 머신러닝 알고리즘이 정당함에도 불구하고 예측 모델에서 편견과 누락을 초래한다. 특정 머신러닝 알고리즘을 훈련하는 데 사용되는 레이블 데이터는 결과를 편향시키지 않도록 통계적으로 대표 표본이어야 한다. 예를 들어, 얼굴 인식 시스템에서는 훈련에 사용할 수 있는 레이블 데이터가 인구를 대표하지 않는 경우, 대표성이 부족한 그룹이 종종 잘못 분류된다. 2018년 조이 볼라미니와 팀닛 게브루의 연구에 따르면, 얼굴 인식 알고리즘을 훈련하는 데 사용된 두 개의 얼굴 분석 데이터 세트인 IJB-A와 Adience는 각각 79.6%와 86.2%가 밝은 피부색의 사람들로 구성되어 있다.

3.2. 인간의 오류 및 비일관성

인간 주석자는 데이터를 레이블링할 때 오류와 편향에 취약하다. 이는 일관성 없는 레이블로 이어질 수 있으며, 데이터 세트의 품질에 영향을 미칠 수 있다. 이러한 불일치는 기계 학습 모델의 일반화 능력에 영향을 미칠 수 있다.

3.3. 도메인 전문성

의료 영상이나 법률 문서와 같이 특정 분야의 데이터 라벨링에는 해당 분야의 전문 지식이 필요하다. 전문 지식이 부족한 경우, 데이터 라벨링의 정확도가 떨어지고, 이는 기계 학습 모델의 성능 저하로 이어질 수 있다.