AutoML
1. 개요
AutoML(Automated Machine Learning)은 머신 러닝 모델 개발 과정을 자동화하여, 비전문가도 머신 러닝 기술을 쉽게 활용할 수 있도록 돕는 기술이다. 기존 머신 러닝 방식과 비교하여 데이터 전처리, 특징 공학, 모델 선택, 하이퍼파라미터 최적화 등의 과정을 자동화한다. AutoML은 데이터 준비 및 수집, 특징 공학, 모델 선택 및 앙상블, 하이퍼파라미터 최적화, 파이프라인 선택 및 관리, 평가 및 검증, 결과 분석 및 시각화 등 머신 러닝 프로세스의 다양한 단계를 자동화한다. 그러나 AutoML은 전문가 의존성, 메타 학습 과제, 계산 자원 할당과 같은 과제와 한계를 가지고 있다.
이미지 준비중입니다.
| 유형 | 자동화된 기계 학습 |
|---|---|
| 다른 이름 | 자동화된 ML 자동 ML |
| 분야 | 인공지능 |
| 적용 분야 | 데이터 마이닝 기계 학습 인공지능 |
|---|
2. 기존 머신 러닝 방식과의 비교
기존의 머신 러닝 방식에서는 훈련에 사용할 입력 데이터가 주어져도, 원시 데이터는 바로 알고리즘에 적용하기 어려울 수 있다. 따라서 전문가는 기계 학습에 적합한 데이터를 만들기 위해 데이터 전처리, 특징 공학, 특징 추출, 특징 선택과 같은 방법을 적용해야 한다. 이러한 단계 이후에도 실무자는 모델의 예측 성능을 최대화하기 위해 알고리즘 선택 및 하이퍼파라미터 최적화를 수행해야 하며, 딥 러닝을 사용하는 경우에는 신경망 구조도 수동으로 선택해야 한다.
이러한 각 단계는 어려울 수 있으며, 기계 학습을 사용하는 데 상당한 진입 장벽으로 작용한다. AutoML은 이러한 단계를 단순화하여 비전문가도 기계 학습 기술을 올바르고 효과적으로 사용할 수 있도록 돕는다. AutoML은 데이터 과학 자동화라는 더 광범위한 접근 방식의 일부로, 데이터 엔지니어링, 데이터 탐색, 모델 해석 및 예측과 같은 어려운 작업도 포함한다.
3. 자동화 대상
AutoML은 머신 러닝 프로세스의 다양한 단계를 자동화한다. 전형적인 기계 학습 응용 분야에서 실무자는 훈련에 사용할 입력 데이터 포인트 집합을 갖는데, 원시 데이터는 모든 알고리즘을 적용할 수 있는 형태가 아닐 수 있다. 기계 학습에 적합한 데이터를 만들기 위해 전문가는 적절한 데이터 전처리, 특징 공학, 특징 추출, 특징 선택 방법을 적용해야 할 수 있다. 이후 모델의 예측 성능을 최대화하기 위해 알고리즘 선택 및 하이퍼파라미터 최적화를 수행해야 하며, 딥 러닝의 경우 신경망 아키텍처도 수동으로 선택해야 한다.
이러한 각 단계는 어려울 수 있으며 기계 학습을 사용하는 데 상당한 어려움을 초래할 수 있다. AutoML은 비전문가를 위해 이러한 단계를 단순화하고 기계 학습 기술을 올바르고 효과적으로 사용하는 것을 더 쉽게 만드는 것을 목표로 한다.
AutoML은 데이터 과학 자동화라는 더 광범위한 접근 방식 내에서 중요한 역할을 하며, 여기에는 데이터 엔지니어링, 데이터 탐색 및 모델 해석과 예측과 같은 어려운 작업도 포함된다. 자동화된 머신 러닝은 머신 러닝 프로세스의 다양한 단계를 목표로 할 수 있다.
3.1. 데이터 준비 및 수집
데이터 준비 및 수집은 원시 데이터 및 다양한 형식으로부터 이루어진다. 다음의 자동화 단계를 거친다.
* 열 유형 감지: 부울, 이산 수치, 연속 수치, 텍스트 등
* 열 의도 감지: 목표/레이블, 층화 필드, 수치 특징, 범주형 텍스트 특징, 자유 텍스트 특징 등
* 작업 감지: 이진 분류, 회귀, 클러스터링, 랭킹 등
3.2. 특징 공학
AutoML은 특징 선택, 특징 추출, 메타 학습, 전이 학습 등을 자동화하여 모델 성능을 향상시킨다. 왜곡된 데이터 및 누락된 값의 자동 감지 및 처리 기능도 포함한다.
3.3. 모델 선택 및 앙상블
AutoML은 모델 선택에서 최적의 머신 러닝 알고리즘을 자동으로 선택하는 과정을 포함한다. 또한, 여러 모델을 결합하여 더 나은 예측 성능을 제공하는 앙상블 학습도 AutoML의 중요한 부분이다. 앙상블은 단일 모델보다 우수한 결과를 제공하는 합의 형태이다.
3.4. 하이퍼파라미터 최적화
AutoML은 학습 알고리즘 및 특징의 하이퍼파라미터 최적화를 자동으로 수행하여 모델의 예측 성능을 극대화한다. 또한, 신경망 구조 검색을 통해 최적의 신경망 구조를 자동으로 탐색한다.
3.6. 평가 및 검증
AutoML은 모델의 예측 성능을 최대화하기 위해 적절한 평가 지표 및 유효성 검사 절차를 선택해야 한다. 또한 문제 확인 과정에서 발생할 수 있는 누출이나 잘못된 구성을 자동으로 감지한다.
4. 과제 및 한계
AutoML은 머신 러닝의 효율성을 높이는 데 기여하지만, 몇 가지 과제와 한계점을 가지고 있다.
자동화된 머신 러닝과 관련하여 해결해야 할 주요 과제 중 하나는 "영세 산업으로서의 개발"이다. 이는 머신 러닝 개발이 전문가의 수동적인 결정과 편견에 의존하는 문제를 가리킨다. 이는 스스로의 사용과 데이터 분석을 통해 학습하고 개선할 수 있는 시스템을 만드는 머신 러닝의 목표와 대조된다.
이 외에도 메타 학습 과제 및 계산 자원 할당과 같은 문제가 있다.
4.1. 전문가 의존성
AutoML 시스템 개발은 여전히 머신 러닝 알고리즘 및 시스템 설계에 대한 전문 지식을 갖춘 전문가에게 의존적이다. 이는 머신이 스스로 학습하고 개선할 수 있도록 하는 머신 러닝의 목표와 상충된다. 시스템 학습에 전문가가 얼마나 개입해야 하는지, 머신에 얼마나 많은 자율성을 부여해야 하는지 사이의 갈등이 존재한다.