AutoML

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

AutoML(Automated Machine Learning)은 머신 러닝 모델 개발 과정을 자동화하여, 비전문가도 머신 러닝 기술을 쉽게 활용할 수 있도록 돕는 기술이다. 기존 머신 러닝 방식과 비교하여 데이터 전처리, 특징 공학, 모델 선택, 하이퍼파라미터 최적화 등의 과정을 자동화한다. AutoML은 데이터 준비 및 수집, 특징 공학, 모델 선택 및 앙상블, 하이퍼파라미터 최적화, 파이프라인 선택 및 관리, 평가 및 검증, 결과 분석 및 시각화 등 머신 러닝 프로세스의 다양한 단계를 자동화한다. 그러나 AutoML은 전문가 의존성, 메타 학습 과제, 계산 자원 할당과 같은 과제와 한계를 가지고 있다.

AutoML

이미지 준비중입니다.

Auto-WEKA GUI

유형	자동화된 기계 학습
다른 이름	자동화된 ML 자동 ML
분야	인공지능

적용 분야

적용 분야	데이터 마이닝 기계 학습 인공지능

📚 더 읽어볼만한 페이지

기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
기계 학습 - 지도 학습
지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.

1. 개요
2. 기존 머신 러닝 방식과의 비교
3. 자동화 대상
4. 과제 및 한계

2. 기존 머신 러닝 방식과의 비교

기존의 머신 러닝 방식에서는 훈련에 사용할 입력 데이터가 주어져도, 원시 데이터는 바로 알고리즘에 적용하기 어려울 수 있다. 따라서 전문가는 기계 학습에 적합한 데이터를 만들기 위해 데이터 전처리, 특징 공학, 특징 추출, 특징 선택과 같은 방법을 적용해야 한다. 이러한 단계 이후에도 실무자는 모델의 예측 성능을 최대화하기 위해 알고리즘 선택 및 하이퍼파라미터 최적화를 수행해야 하며, 딥 러닝을 사용하는 경우에는 신경망 구조도 수동으로 선택해야 한다.

이러한 각 단계는 어려울 수 있으며, 기계 학습을 사용하는 데 상당한 진입 장벽으로 작용한다. AutoML은 이러한 단계를 단순화하여 비전문가도 기계 학습 기술을 올바르고 효과적으로 사용할 수 있도록 돕는다. AutoML은 데이터 과학 자동화라는 더 광범위한 접근 방식의 일부로, 데이터 엔지니어링, 데이터 탐색, 모델 해석 및 예측과 같은 어려운 작업도 포함한다.

3. 자동화 대상

AutoML은 머신 러닝 프로세스의 다양한 단계를 자동화한다. 전형적인 기계 학습 응용 분야에서 실무자는 훈련에 사용할 입력 데이터 포인트 집합을 갖는데, 원시 데이터는 모든 알고리즘을 적용할 수 있는 형태가 아닐 수 있다. 기계 학습에 적합한 데이터를 만들기 위해 전문가는 적절한 데이터 전처리, 특징 공학, 특징 추출, 특징 선택 방법을 적용해야 할 수 있다. 이후 모델의 예측 성능을 최대화하기 위해 알고리즘 선택 및 하이퍼파라미터 최적화를 수행해야 하며, 딥 러닝의 경우 신경망 아키텍처도 수동으로 선택해야 한다.

이러한 각 단계는 어려울 수 있으며 기계 학습을 사용하는 데 상당한 어려움을 초래할 수 있다. AutoML은 비전문가를 위해 이러한 단계를 단순화하고 기계 학습 기술을 올바르고 효과적으로 사용하는 것을 더 쉽게 만드는 것을 목표로 한다.

AutoML은 데이터 과학 자동화라는 더 광범위한 접근 방식 내에서 중요한 역할을 하며, 여기에는 데이터 엔지니어링, 데이터 탐색 및 모델 해석과 예측과 같은 어려운 작업도 포함된다. 자동화된 머신 러닝은 머신 러닝 프로세스의 다양한 단계를 목표로 할 수 있다.

3.1. 데이터 준비 및 수집

데이터 준비 및 수집은 원시 데이터 및 다양한 형식으로부터 이루어진다. 다음의 자동화 단계를 거친다.

* 열 유형 감지: 부울, 이산 수치, 연속 수치, 텍스트 등
* 열 의도 감지: 목표/레이블, 층화 필드, 수치 특징, 범주형 텍스트 특징, 자유 텍스트 특징 등
* 작업 감지: 이진 분류, 회귀, 클러스터링, 랭킹 등

3.2. 특징 공학

AutoML은 특징 선택, 특징 추출, 메타 학습, 전이 학습 등을 자동화하여 모델 성능을 향상시킨다. 왜곡된 데이터 및 누락된 값의 자동 감지 및 처리 기능도 포함한다.

3.3. 모델 선택 및 앙상블

AutoML은 모델 선택에서 최적의 머신 러닝 알고리즘을 자동으로 선택하는 과정을 포함한다. 또한, 여러 모델을 결합하여 더 나은 예측 성능을 제공하는 앙상블 학습도 AutoML의 중요한 부분이다. 앙상블은 단일 모델보다 우수한 결과를 제공하는 합의 형태이다.

3.4. 하이퍼파라미터 최적화

AutoML은 학습 알고리즘 및 특징의 하이퍼파라미터 최적화를 자동으로 수행하여 모델의 예측 성능을 극대화한다. 또한, 신경망 구조 검색을 통해 최적의 신경망 구조를 자동으로 탐색한다.

3.5. 파이프라인 선택 및 관리

AutoML은 시간, 메모리, 복잡성 제약 조건에서 최적의 머신 러닝 파이프라인을 선택하고 관리한다.

3.6. 평가 및 검증

AutoML은 모델의 예측 성능을 최대화하기 위해 적절한 평가 지표 및 유효성 검사 절차를 선택해야 한다. 또한 문제 확인 과정에서 발생할 수 있는 누출이나 잘못된 구성을 자동으로 감지한다.

3.7. 결과 분석 및 시각화

AutoML은 획득한 결과를 분석하고, 사용자 인터페이스 및 시각화를 생성하여 사용자가 결과를 쉽게 이해할 수 있도록 돕는다.

4. 과제 및 한계

AutoML은 머신 러닝의 효율성을 높이는 데 기여하지만, 몇 가지 과제와 한계점을 가지고 있다.

자동화된 머신 러닝과 관련하여 해결해야 할 주요 과제 중 하나는 "영세 산업으로서의 개발"이다. 이는 머신 러닝 개발이 전문가의 수동적인 결정과 편견에 의존하는 문제를 가리킨다. 이는 스스로의 사용과 데이터 분석을 통해 학습하고 개선할 수 있는 시스템을 만드는 머신 러닝의 목표와 대조된다.

이 외에도 메타 학습 과제 및 계산 자원 할당과 같은 문제가 있다.

4.1. 전문가 의존성

AutoML 시스템 개발은 여전히 머신 러닝 알고리즘 및 시스템 설계에 대한 전문 지식을 갖춘 전문가에게 의존적이다. 이는 머신이 스스로 학습하고 개선할 수 있도록 하는 머신 러닝의 목표와 상충된다. 시스템 학습에 전문가가 얼마나 개입해야 하는지, 머신에 얼마나 많은 자율성을 부여해야 하는지 사이의 갈등이 존재한다.

4.2. 메타 학습 과제

메타 학습은 AutoML의 중요한 기술이지만, 메타 데이터의 품질 및 다양성, 새로운 작업에 대한 적응성 등 해결해야 할 과제가 남아있다.

4.3. 계산 자원 할당

AutoML은 많은 계산 자원을 필요로 하므로, 효율적인 자원 할당 및 관리가 중요하다. 특히, 신경망 구조 검색(NAS)과 같은 작업은 막대한 계산 비용이 발생할 수 있다.