하이퍼파라미터 (기계 학습)
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
하이퍼파라미터는 기계 학습 모델의 훈련 및 테스트 과정에서 설정되는 값으로, 모델의 성능에 큰 영향을 미친다. 하이퍼파라미터는 모델 내부에서 학습되는 매개변수와 달리, 학습 데이터로부터 직접 학습되지 않으며, 모델의 구조나 학습 과정을 제어하는 역할을 한다. 하이퍼파라미터의 튜닝은 모델의 성능 향상에 중요하며, 하이퍼파라미터 최적화 기법을 통해 최적의 값을 찾을 수 있다. 모델의 강건성 및 재현성 확보를 위해 다양한 하이퍼파라미터 설정에 대한 고려가 필요하다.
더 읽어볼만한 페이지
| 하이퍼파라미터 (기계 학습) | |
|---|---|
| 개요 | |
| 유형 | 파라미터 |
| 분야 | 기계 학습 |
| 하위 분야 | 모델 선택 |
| 관련 항목 | 과적합, 학습 곡선 |
| 상세 정보 | |
| 설명 | 모델링에 앞서 그 값이 설정되는 파라미터 |
| 최적화 방법 | 그리드 탐색 랜덤 탐색 베이즈 최적화 |
| 관련 용어 | |
| 관련 개념 | 초매개변수 (베이즈) |
2. 하이퍼파라미터의 개념
하이퍼파라미터는 모델 훈련 및 테스트 시간에 영향을 주는 설정값이다.[2] 이는 연속형 또는 정수형 값을 가지며, 혼합형 최적화 문제를 야기한다.[2] 일부 하이퍼파라미터는 다른 하이퍼파라미터 값에 의존적이다. 예를 들어, 신경망의 은닉층 크기는 층 수에 따라 달라질 수 있다.[2]
2. 1. 학습 불가능한 파라미터
일부 하이퍼파라미터는 학습 데이터로부터 학습될 수 없다. 이는 하이퍼파라미터가 모델의 용량을 지나치게 증가시켜 과대적합을 일으킬 수 있기 때문이다. 이러한 경우, 모델은 데이터의 구조적 특징을 제대로 반영하는 대신 손실 함수를 원치 않는 최솟값으로 밀어 넣게 된다. 예를 들어, 회귀 모델에 적합한 다항식 방정식의 차수를 학습 가능한 매개변수로 취급하면, 모델이 데이터를 완벽하게 맞출 때까지 차수가 증가하여 훈련 오류는 낮아지지만, 일반화 성능은 저조해진다.[1]목적 함수는 일반적으로 하이퍼파라미터에 대해 미분 불가능하다. 따라서 대부분의 경우 하이퍼파라미터는 경사 하강법과 같은 경사 기반 최적화 방법을 사용하여 학습할 수 없다. 이러한 하이퍼파라미터는 일반적인 최적화 방법으로는 학습할 수 없지만, 손실 함수에 영향을 미치는 모델 표현을 설명하는 매개변수이다. 서포트 벡터 머신의 오류 허용 오차 하이퍼파라미터가 이에 해당한다.[2]
2. 2. 튜닝 가능성
모델을 훈련하고 테스트하는 데 필요한 시간은 하이퍼파라미터의 선택에 따라 달라질 수 있다.[2] 하이퍼파라미터는 일반적으로 연속형 또는 정수형이며, 이는 혼합형 최적화 문제를 야기한다.[2] 일부 하이퍼파라미터의 존재는 다른 하이퍼파라미터의 값에 따라 달라지며, 예를 들어 신경망의 각 은닉층의 크기는 층의 수에 따라 달라질 수 있다.[2]대부분의 성능 변화는 단지 몇 개의 하이퍼파라미터에 기인할 수 있다.[3][2][4] 알고리즘, 하이퍼파라미터 또는 상호작용하는 하이퍼파라미터의 튜닝 가능성은 이를 튜닝하여 얼마나 많은 성능을 얻을 수 있는지를 측정하는 척도이다.[5] LSTM의 경우, 학습률 다음으로 네트워크 크기가 가장 중요한 하이퍼파라미터이지만,[6] 배치 크기 및 모멘텀은 성능에 큰 영향을 미치지 않는다.[7]
일부 연구에서는 수천 개의 미니 배치 크기를 사용할 것을 권장했지만, 다른 연구에서는 2에서 32 사이의 미니 배치 크기에서 최상의 성능을 보였다.[8]
2. 3. 강건성
학습의 내재적인 확률성은 경험적 하이퍼파라미터 성능이 반드시 실제 성능을 의미하지는 않는다는 것을 직접적으로 시사한다.[2] 하이퍼파라미터, 난수 시드 또는 동일 알고리즘의 다른 구현에 대한 단순한 변화에 강건성을 갖지 않은 방법은 상당한 단순화 및 강건화 없이는 미션 크리티컬 제어 시스템에 통합될 수 없다.[9]특히, 강화 학습 알고리즘은 다수의 난수 시드에 대한 성능을 측정하고, 하이퍼파라미터 선택에 대한 민감도를 측정해야 한다.[9] 소수의 난수 시드를 사용한 평가는 높은 분산으로 인해 성능을 적절하게 포착하지 못한다.[9] DDPG(Deep Deterministic Policy Gradient)와 같은 일부 강화 학습 방법은 다른 방법보다 하이퍼파라미터 선택에 더 민감하다.[9]
3. 하이퍼파라미터 최적화
하이퍼파라미터 최적화는 주어진 테스트 데이터에 대해 미리 정의된 손실 함수를 최소화하는 최적의 모델을 산출하는 하이퍼파라미터 조합을 찾는 과정이다.[2] 목적 함수는 하이퍼파라미터 조합을 받아 관련 손실을 반환한다.[2] 일반적으로 이러한 방법들은 미분 불가능 최적화 또는 블랙 박스 최적화의 개념을 적용하며, 기울기 기반이 아니다.
3. 1. 최적화 방법
목적 함수는 일반적으로 하이퍼파라미터에 대해 미분 불가능하다. 결과적으로 대부분의 경우, 하이퍼파라미터는 모델 매개변수를 학습하는 데 일반적으로 사용되는 경사 하강법과 같은 경사 기반 최적화 방법을 사용하여 학습할 수 없다. 이러한 하이퍼파라미터는 일반적인 최적화 방법으로는 학습할 수 없지만 손실 함수에 영향을 미치는 모델 표현을 설명하는 매개변수이다. 예를 들어, 서포트 벡터 머신의 오류에 대한 허용 오차 하이퍼파라미터가 있다.하이퍼파라미터 최적화는 주어진 테스트 데이터에 대해 미리 정의된 손실 함수를 최소화하는 최적의 모델을 산출하는 하이퍼파라미터의 튜플을 찾는 과정이다.[2] 목적 함수는 하이퍼파라미터의 튜플을 받아 관련 손실을 반환한다.[2] 일반적으로 이러한 방법들은 미분 불가능 최적화 또는 블랙 박스 최적화의 개념을 적용하며, 기울기 기반이 아니다.
4. 재현성 문제
기계 학습 연구의 재현성은 실험 결과의 신뢰성을 보장하기 위해 중요하며, 하이퍼파라미터 설정을 포함한 모든 실험 과정을 투명하게 기록하고 공유해야 한다. 특히 딥 러닝 모델은 난수 생성기의 난수 씨앗 선택과 같은 요소에도 크게 영향을 받을 수 있어 재현성 확보가 더 어렵다.[14]
4. 1. 재현성 확보를 위한 노력
기계 학습에서는 매개변수와 결과를 저장하고 정리하여 재현 가능성을 보장해야 한다.[10] 그러나 이러한 목적을 위한 견고한 인프라가 부족하여, 연구 코드가 빠르게 발전하면서 장부 정리 및 재현성과 같은 필수적인 측면이 저해되는 경우가 많다.[11]과학자들은 기계 학습을 위한 온라인 협업 플랫폼을 통해 실험, 데이터, 알고리즘을 자동으로 공유, 정리, 논의할 수 있다.[12] 딥 러닝 모델의 경우 재현성이 특히 어려울 수 있는데,[13] 일례로 딥 러닝 모델은 난수 생성기의 난수 씨앗 선택에도 매우 큰 영향을 받는다는 연구 결과가 있다.[14]
5. 한국의 하이퍼파라미터 최적화 연구 동향 (한국 관점)
국내 주요 대학 및 연구기관에서 하이퍼파라미터 최적화 연구가 활발하게 진행되고 있으며, 특히 딥 러닝, 강화 학습 분야에서 자동화된 하이퍼파라미터 탐색 기술 개발에 주력하고 있다.
참조
[1]
간행물
On hyperparameter optimization of machine learning algorithms: Theory and practice
https://www.scienced[...]
2020-11-20
[2]
뉴스
Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015).
[3]
간행물
An Efficient Approach for Assessing Hyperparameter Importance
http://proceedings.m[...]
2014-01-27
[4]
뉴스
van Rijn, Jan N., and Frank Hutter. "Hyperparameter Importance Across Datasets." arXiv preprint arXiv:1710.04725 (2017).
[5]
뉴스
Probst, Philipp, Bernd Bischl, and Anne-Laure Boulesteix. "Tunability: Importance of Hyperparameters of Machine Learning Algorithms." arXiv preprint arXiv:1802.09596 (2018).
[6]
간행물
LSTM: A Search Space Odyssey
2017-10-23
[7]
뉴스
Breuel, Thomas M. "Benchmarking of LSTM networks." arXiv preprint arXiv:1508.02774 (2015).
[8]
뉴스
Revisiting Small Batch Training for Deep Neural Networks (2018).
[9]
뉴스
Mania, Horia, Aurelia Guy, and Benjamin Recht. "Simple random search provides a competitive approach to reinforcement learning." arXiv preprint arXiv:1803.07055 (2018).
[10]
뉴스
Greff, Klaus, and Jürgen Schmidhuber. "Introducing Sacred: A Tool to Facilitate Reproducible Research."
https://indico.lal.i[...]
[11]
뉴스
Greff, Klaus, et al. "The Sacred Infrastructure for Computational Research."
http://conference.sc[...]
2018-04-06
[12]
뉴스
Vanschoren, Joaquin, et al. "OpenML: networked science in machine learning." arXiv preprint arXiv:1407.7722 (2014).
[13]
웹사이트
Reproducibility in ML: why it matters and how to achieve it
https://determined.a[...]
2018-05-25
[14]
문서
We need to talk about random seeds
ArXiv
2022
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com