다중 작업 학습
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
다중 작업 학습은 단일 모델을 사용하여 여러 작업을 동시에 학습하는 머신 러닝 방식이다. 이 방법은 작업 간의 정보 공유를 통해 각 작업의 성능을 향상시키는 것을 목표로 한다. 다중 작업 학습은 작업 그룹화, 관련 없는 작업 활용, 지식 이전, 다중 비정상 작업, 다중 작업 최적화 등의 방법으로 구현될 수 있으며, 수학적 접근과 소프트웨어 패키지를 통해 연구 및 적용된다.
다중 작업 학습(MTL)의 핵심 과제는 여러 작업의 학습 신호를 단일 모델로 결합하는 방법이다. 이는 서로 다른 작업이 얼마나 잘 일치하거나 모순되는지에 따라 크게 달라질 수 있다. 이 과제를 해결하는 방법에는 여러 가지가 있다.
다중 작업 학습(Multi-task learning, MTL)은 여러 관련된 작업을 동시에 학습하여 각 작업의 성능을 향상시키는 기계 학습 방법이다. 이 섹션에서는 다중 작업 학습에 대한 수학적 접근 방법을 설명한다.
2. 방법
2. 1. 작업 그룹화 및 중첩
다중 작업 학습의 핵심 과제는 여러 작업의 학습 신호를 단일 모델로 결합하는 방법이다. 이는 서로 다른 작업이 얼마나 잘 일치하거나 모순되는지에 따라 크게 달라질 수 있다. 이 과제를 해결하는 방법에는 여러 가지가 있다.
다중 작업 학습(MTL) 패러다임 내에서 일부 또는 모든 작업 간에 정보를 공유할 수 있다. 작업 관련성의 구조에 따라 작업 간에 정보를 선택적으로 공유할 수 있다. 예를 들어, 작업은 그룹화되거나 계층 구조로 존재하거나, 어떤 일반적인 척도에 따라 관련될 수 있다. 각 작업을 모델링하는 파라미터 벡터가 일부 기본 요소의 선형 결합이라고 가정해 보자. 이 기본 요소 측면에서의 유사성은 작업의 관련성을 나타낼 수 있다. 예를 들어, 희소성의 경우, 작업 간의 0이 아닌 계수의 중첩은 공통성을 나타낸다. 작업 그룹화는 일부 기본 요소의 하위 집합에 의해 생성된 하위 공간에 있는 해당 작업에 해당하며, 다른 그룹의 작업은 기본 요소 측면에서 서로소이거나 임의로 중첩될 수 있다.[9] 작업 관련성은 사전에 주어지거나 데이터로부터 학습될 수 있다.[7][10] 계층적 작업 관련성은 사전 지식을 가정하거나 관계를 명시적으로 학습하지 않고도 암묵적으로 활용될 수 있다.[11][12] 예를 들어, 여러 도메인에서 공동 학습의 효과를 보장하기 위해 작업 간의 샘플 관련성을 명시적으로 학습할 수 있다.[11]
2. 2. 관련 없는 작업 활용
다중 작업 학습의 핵심 과제는 여러 작업의 학습 신호를 단일 모델로 결합하는 방법이다. 이는 서로 다른 작업이 얼마나 잘 일치하거나 모순되는지에 따라 크게 달라질 수 있다. 이 과제를 해결하는 방법에는 여러 가지가 있다.
주요 과제 그룹을 보조 과제 그룹을 사용하여 학습할 수 있는데, 이는 주요 과제와 관련이 없다. 많은 응용 분야에서 동일한 입력 데이터를 사용하는 관련 없는 과제를 함께 학습하는 것이 유용할 수 있다. 그 이유는 과제 관련성에 대한 사전 지식이 각 과제 그룹에 대해 더 희소하고 더 유익한 표현을 생성하여 본질적으로 데이터 분포의 특이성을 걸러낼 수 있기 때문이다. 각 과제 그룹 내에서 공유된 저차원 표현을 선호하는 기존의 다중 작업 방법론을 기반으로 하는 새로운 방법이 제안되었다. 프로그래머는 서로 다른 그룹의 과제에 페널티를 부과하여 두 표현이 직교하도록 장려할 수 있다. 합성 데이터 및 실제 데이터에 대한 실험 결과, 관련 없는 과제를 통합하면 표준 다중 과제 학습 방법보다 상당한 개선을 얻을 수 있음을 나타냈다.[8]
2. 3. 지식 이전
다중 작업 학습과 관련된 개념은 지식 이전이다. 전통적인 다중 작업 학습은 작업 전반에 걸쳐 공유되는 표현이 동시에 개발됨을 의미하는 반면, 지식 이전은 순차적으로 공유되는 표현을 의미한다. 딥 합성곱 신경망 GoogLeNet[13]과 같은 대규모 머신 러닝 프로젝트는 이미지 기반 객체 분류기로, 관련 작업을 학습하는 추가 알고리즘에 유용할 수 있는 강력한 표현을 개발할 수 있다. 예를 들어, 사전 훈련된 모델은 다른 학습 알고리즘을 위한 전처리를 수행하기 위해 특징 추출기로 사용될 수 있다. 또는 사전 훈련된 모델을 유사한 아키텍처를 가진 모델을 초기화하는 데 사용할 수 있으며, 이 모델은 다른 분류 작업을 학습하도록 미세 조정된다.[14]
2. 4. 다중 비정상 작업
다중 작업 학습의 핵심 과제는 여러 작업의 학습 신호를 단일 모델로 결합하는 방법이다. 이는 서로 다른 작업이 얼마나 잘 일치하거나 모순되는지에 따라 크게 달라질 수 있다.
전통적으로 다중 작업 학습과 지식 이전은 정적 학습 환경에 적용된다. 이를 비정적 환경으로 확장한 것을 ''그룹 온라인 적응 학습''(GOAL)이라고 한다.[15] 학습자가 지속적으로 변화하는 환경에서 작동하는 경우, 정보를 공유하는 것이 특히 유용할 수 있는데, 이는 학습자가 다른 학습자의 이전 경험을 활용하여 새로운 환경에 빠르게 적응할 수 있기 때문이다. 이러한 그룹 적응 학습은 금융 시계열 예측에서 콘텐츠 추천 시스템, 적응형 자율 에이전트를 위한 시각적 이해에 이르기까지 다양한 분야에 적용된다.
2. 5. 다중 작업 최적화
다중 작업 학습의 핵심 과제는 여러 작업의 학습 신호를 단일 모델로 결합하는 방법이다. 이는 서로 다른 작업이 얼마나 잘 일치하거나 모순되는지에 따라 크게 달라질 수 있다. 이 과제를 해결하는 방법에는 여러 가지가 있다.
어떤 경우에는, 겉보기에는 관련된 작업들의 동시 훈련이 단일 작업 모델에 비해 성능을 저해할 수 있다.[16] 일반적으로, 다중 작업 학습(MTL) 모델은 공유 모듈을 사용하여 얻은 결합된 특징 표현 위에 작업별 모듈을 사용한다. 이 결합된 표현이 모든 작업에서 유용한 특징을 포착해야 하므로, 서로 다른 작업이 상충하는 표현을 찾으려고 할 경우, 즉, 서로 다른 작업의 기울기가 반대 방향을 가리키거나 크기가 크게 다를 경우, MTL은 개별 작업의 성능을 저해할 수 있다. 이러한 현상을 일반적으로 부정적 전이(negative transfer)라고 한다. 이 문제를 완화하기 위해 다양한 MTL 최적화 방법이 제안되었다. 일반적으로, 작업별 기울기는 다양한 집계 알고리즘 또는 휴리스틱을 통해 결합된 업데이트 방향으로 결합된다.
3. 수학적 접근
MTL 문제는 재생 커널을 갖는 벡터 값 함수의 완비 내적 공간인 RKHSvv의 맥락에서 나타낼 수 있다. 특히, 최근에는 분리 가능한 커널을 통해 작업 구조를 식별할 수 있는 경우에 초점을 맞추고 있다.[7]
커널은 특징 공간의 표현을 유도하고 작업 전반에 걸쳐 출력을 구조화한다. 여기서 입력 공간과 작업 에 대한 별도의 커널로 분해되는 ''분리 가능한 커널''을 선택하면, 스칼라 구성 요소 및 와 관련된 커널은 로 주어진다. 벡터 값 함수 의 경우 로 쓸 수 있으며, 여기서 k는 스칼라 재생 커널이고 A는 대칭 양의 준-정부호 행렬이다.
이러한 분해 속성은 입력 특징 공간 표현이 작업에 따라 달라지지 않음을 의미한다. 즉, 입력 커널과 작업 커널 간의 상호 작용이 없다. 작업의 구조는 A에 의해서만 표현된다.
분리 가능한 경우 표현 정리는 로 축소된다. 훈련 데이터에 대한 모델 출력은 KCA이며, 여기서 K는 항목 를 갖는 경험적 커널 행렬이고 C는 행 의 행렬이다.
분리 가능한 커널을 사용하면 다음 식을 얻을 수 있다.
:
여기서 V는 L을 Y와 KCA에 항목별로 적용한 (가중) 평균이다. (가중치는 가 누락된 관측치인 경우 0이다).
위 식의 두 번째 항은 다음과 같이 유도할 수 있다.
:
MTL 패러다임에서는 일부 또는 모든 작업 간에 정보를 공유할 수 있다. 작업 관련성의 구조에 따라 작업 간에 정보를 선택적으로 공유할 수 있다. 예를 들어, 작업은 그룹화되거나 계층 구조로 존재하거나, 어떤 일반적인 척도에 따라 관련될 수 있다. 각 작업을 모델링하는 파라미터 벡터가 일부 기본 요소의 선형 결합이라고 가정할 때, 이 기본 요소 측면에서의 유사성은 작업의 관련성을 나타낼 수 있다.[9]
3. 1. 벡터 값 함수 재생 커널 힐베르트 공간 (RKHSvv)
MTL 문제는 재생 커널을 갖는 벡터 값 함수의 완비 내적 공간인 RKHSvv의 맥락에서 나타낼 수 있다. 특히, 최근에는 분리 가능한 커널을 통해 작업 구조를 식별할 수 있는 경우에 초점을 맞추고 있으며, Ciliberto et al., 2015의 내용을 따른다.[7]
3. 1. 1. RKHSvv 개념
다중 작업 학습(MTL) 문제에서 RKHSvv는 (완비 내적 공간이며, 재생 커널을 갖는 벡터 값 함수 공간)로 나타낼 수 있다. 특히, 최근에는 분리 가능한 커널을 통해 작업 구조를 식별할 수 있는 경우에 초점을 맞추고 있다. 여기서는 Ciliberto et al., 2015의 내용을 따른다.[7]
훈련 데이터 세트가 라고 가정하고, , 이며, 여기서 t는 작업을 색인하고 이다. 라고 하자. 이 설정에서는 각 작업에 대해 일관된 입력 및 출력 공간과 동일한 손실 함수 가 있다. 이것은 정규화된 머신 러닝 문제를 초래한다.
여기서 는 함수 를 갖는 벡터 값 재생 커널 힐베르트 공간이며, 구성 요소는 이다.
함수 의 공간 에 대한 재생 커널은 대칭 행렬 값 함수 이며, 이고 다음 재생 속성이 적용된다.
재생 커널은 방정식에 대한 모든 해가 다음 형식을 갖는다는 것을 보여주는 표현 정리로 이어진다.
3. 1. 2. 분리 가능한 커널
다중 작업 학습(MTL) 문제에서 RKHSvv (완비 내적 공간으로, 재생 커널을 갖는 벡터 값 함수 공간)를 사용하여 작업 구조를 파악할 수 있다. 특히, 최근에는 분리 가능한 커널을 통해 작업 구조를 식별하는 데 초점을 맞추고 있다. 다음 내용은 Ciliberto et al., 2015의 연구를 따른다.[7]
커널은 특징 공간의 표현을 유도하고 작업 전반에 걸쳐 출력을 구조화한다. 여기서 입력 공간 와 작업 에 대한 별도의 커널로 분해되는 ''분리 가능한 커널''을 선택하면, 스칼라 구성 요소 및 와 관련된 커널은 로 주어진다. 벡터 값 함수 의 경우 로 쓸 수 있으며, 여기서 k는 스칼라 재생 커널이고 A는 대칭 양의 준-정부호 행렬이다. 로 표기한다.
이러한 분해 속성, 즉 분리성은 입력 특징 공간 표현이 작업에 따라 달라지지 않음을 의미한다. 즉, 입력 커널과 작업 커널 간의 상호 작용이 없다. 작업의 구조는 A에 의해서만 표현된다. 분리 불가능한 커널에 대한 방법은 현재 연구 분야이다.
분리 가능한 경우 표현 정리는 로 축소된다. 훈련 데이터에 대한 모델 출력은 KCA이며, 여기서 K는 항목 를 갖는 경험적 커널 행렬이고 C는 행 의 행렬이다.
분리 가능한 커널을 사용하면 다음 식을 얻을 수 있다.
여기서 V는 L을 Y와 KCA에 항목별로 적용한 (가중) 평균이다. (가중치는 가 누락된 관측치인 경우 0이다).
위 식의 두 번째 항은 다음과 같이 유도할 수 있다.
:
3. 1. 3. 알려진 작업 구조
다중 작업 학습(MTL) 패러다임에서는 일부 또는 모든 작업 간에 정보를 공유할 수 있다. 작업 관련성의 구조에 따라 작업 간에 정보를 선택적으로 공유할 수 있다. 예를 들어, 작업은 그룹화되거나 계층 구조로 존재하거나, 어떤 일반적인 척도에 따라 관련될 수 있다. 각 작업을 모델링하는 파라미터 벡터가 일부 기본 요소의 선형 결합이라고 가정해 보자. 이 기본 요소 측면에서의 유사성은 작업의 관련성을 나타낼 수 있다.[9] 예를 들어, 희소성의 경우, 작업 간의 0이 아닌 계수의 중첩은 공통성을 나타낸다. 작업 그룹화는 일부 기본 요소의 하위 집합에 의해 생성된 하위 공간에 있는 해당 작업에 해당하며, 다른 그룹의 작업은 기본 요소 측면에서 서로소이거나 임의로 중첩될 수 있다. 작업 관련성은 사전에 주어지거나 데이터로부터 학습될 수 있다.[7][10] 계층적 작업 관련성은 사전 지식을 가정하거나 관계를 명시적으로 학습하지 않고도 암묵적으로 활용될 수 있다.[11][12] 예를 들어, 여러 도메인에서 공동 학습의 효과를 보장하기 위해 작업 간의 샘플 관련성을 명시적으로 학습할 수 있다.[11]
3. 1. 4. 작업 구조와 함께 학습
다중 작업 학습(MTL)에서는 여러 작업 간에 정보를 공유하여 학습 효과를 높일 수 있다. 이때, 각 작업의 관련성에 따라 정보를 선택적으로 공유하는 것이 가능하다. 작업들은 그룹화되거나 계층 구조를 이룰 수 있으며, 특정 척도에 따라 서로 연관될 수 있다.
각 작업을 모델링하는 파라미터 벡터는 여러 기본 요소들의 선형 결합으로 표현될 수 있다. 이러한 기본 요소들 간의 유사성은 작업 간의 관련성을 나타낸다. 예를 들어, 희소성 관점에서 0이 아닌 계수들의 중첩은 작업 간의 공통성을 의미한다.[9] 작업 그룹화는 특정 기본 요소들의 부분 집합으로 생성되는 하위 공간에 해당하며, 서로 다른 그룹의 작업들은 기본 요소 측면에서 서로소(disjoint)이거나 임의로 중첩될 수 있다. 작업 관련성은 사전에 정의되거나 데이터로부터 학습될 수 있다.[7][10] 계층적 작업 관련성은 사전 지식을 가정하거나 관계를 명시적으로 학습하지 않고도 암묵적으로 활용될 수 있다.[11][12] 예를 들어, 여러 도메인에서 공동 학습의 효과를 보장하기 위해 작업 간의 샘플 관련성을 명시적으로 학습할 수 있다.[11]
재생 커널을 갖는 벡터 값 함수 공간인 RKHSvv (완비 내적 공간)를 이용하여 다중 작업 학습 문제를 나타낼 수 있다. 최근에는 분리 가능한 커널을 통해 작업 구조를 식별하는 연구가 진행되고 있다.[7]
커널은 특징 공간의 표현을 유도하고 작업 전반에 걸쳐 출력을 구조화한다. 입력을 위한 커널과 작업을 위한 커널을 분리하여 사용하는 '분리 가능한 커널'을 사용하면, 스칼라 구성 요소는 다음과 같이 표현된다.
:
벡터 값 함수는 로 쓸 수 있으며, 여기서 k는 스칼라 재생 커널이고, A는 대칭 양의 준-정부호 행렬이다.
이러한 분해는 입력 특징 공간 표현이 작업에 따라 달라지지 않음을 의미한다. 즉, 입력 커널과 작업 커널 간의 상호 작용이 없다. 작업의 구조는 A에 의해서만 표현된다. 분리 불가능한 커널에 대한 연구도 현재 진행 중이다.
분리 가능한 경우 표현 정리는 로 축소된다. 훈련 데이터에 대한 모델 출력은 KCA이며, 여기서 K는 경험적 커널 행렬이고, C는 행렬이다.
분리 가능한 커널을 사용하면 아래의 식을 얻을 수 있다.
:
여기서 V는 Y와 KCA에 항목별로 적용한 (가중) 평균이다.
위 식의 두 번째 항은 다음과 같이 유도된다.
:
학습 문제는 학습 작업 행렬 A를 포함하도록 일반화될 수 있다.
4. 소프트웨어
- https://www.public.asu.edu/~jye02/Software/MALSAR/index.html The Multi-Task Learning via Structural Regularization Package
- https://web.archive.org/web/20131224113826/http://klcl.pku.edu.cn/member/sunxu/code.htm Online Multi-Task Learning Toolkit (OMT): 조건부 무작위장 모델과 확률적 경사 하강 훈련(C#, .NET) 기반의 범용 온라인 다중 작업 학습 툴킷이다.
MALSAR(Multi-Task Learning via StructurAl Regularization)는 매트랩 패키지[19]로, 다음과 같은 다중 작업 학습 알고리즘을 구현한다.
알고리즘 |
---|
평균 정규화 다중 작업 학습[20][21] |
결합 특징 선택을 사용한 다중 작업 학습[22] |
강력한 다중 작업 특징 학습[23] |
트레이스-노름 정규화 다중 작업 학습[24] |
교대 구조 최적화[25][26] |
비일관 저계수 및 희소 학습[27] |
강력한 저계수 다중 작업 학습 |
클러스터링된 다중 작업 학습[28][29] |
그래프 구조를 사용한 다중 작업 학습 |
5. 참고 문헌
Multi-target prediction: A unifying view on problems and methods|다중 대상 예측: 문제와 방법에 대한 통합적 관점영어 빌럼 바게만, 크리스토프 뎀프친스키, 아이케 휠러마이어 https://arxiv.org/abs/1809.02352v1
참조
[1]
논문
A model of inductive bias learning" Journal of Artificial Intelligence Research
http://www-2.cs.cmu.[...]
2000
[2]
논문
Is learning the n-th thing any easier than learning the first?
http://citeseer.ist.[...]
MIT Press
1996
[3]
간행물
Multi-task learning
http://www.cs.cornel[...]
1997
[4]
문서
Multi-Task Learning as Multi-Objective Optimization
https://proceedings.[...]
2018
[5]
논문
Rule-injection hints as a means of improving network performance and learning time
1990
[6]
간행물
Learning from hints in neural networks
1990
[7]
ArXiv
Convex Learning of Multiple Tasks and their Structure
2015
[8]
문서
Exploiting Unrelated Tasks in Multi-Task Learning
http://jmlr.csail.mi[...]
2012
[9]
문서
Learning Task Grouping and Overlap in Multi-Task Learning
http://icml.cc/2012/[...]
2012
[10]
문서
A Convex Feature Learning Formulation for Latent Task Structure Discovery
http://icml.cc/2012/[...]
2012
[11]
ArXiv
Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data
2018
[12]
문서
Hierarchical Regularization Cascade for Joint Learning
http://www.cs.huji.a[...]
2013
[13]
서적
2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
[14]
웹사이트
Deep Learning Overview
https://www.mit.edu/[...]
2019-08-26
[15]
논문
Group online adaptive learning
http://rdcu.be/uFSv
2017-08
[16]
간행물
Learning the Pareto Front with Hypernetworks
https://proceedings.[...]
2020-07-13
[17]
간행물
Learning output kernels with block coordinate descent.
http://machinelearni[...]
2011
[18]
간행물
Clustered multi-task learning: A convex formulation
2009
[19]
문서
MALSAR: Multi-tAsk Learning via StructurAl Regularization
http://www.public.as[...]
2012
[20]
문서
Regularized multi–task learning
https://web.archive.[...]
2004
[21]
간행물
Learning multiple tasks with kernel methods
http://jmlr.org/pape[...]
[22]
간행물
Convex multi-task feature learning
[23]
문서
Integrating low-rank and group-sparse structures for robust multi-task learning
https://www.academia[...]
2011
[24]
문서
An accelerated gradient method for trace norm minimization
http://www.machinele[...]
2009
[25]
간행물
A framework for learning predictive structures from multiple tasks and unlabeled data
http://www.jmlr.org/[...]
[26]
문서
A convex formulation for learning shared structures from multiple tasks
http://leitang.net/p[...]
2009
[27]
문서
Learning incoherent sparse and low-rank patterns from multiple tasks
https://www.ncbi.nlm[...]
2010
[28]
문서
Clustered multi-task learning: A convex formulation
https://hal-ensmp.ar[...]
2008
[29]
문서
Clustered multi-task learning via alternating structure optimization
http://papers.nips.c[...]
2011
[30]
논문
A model of inductive bias learning" Journal of Artificial Intelligence Research
http://www-2.cs.cmu.[...]
2000
[31]
논문
Is learning the n-th thing any easier than learning the first?
http://citeseer.ist.[...]
MIT Press
1996
[32]
저널
Multi-task learning
http://www.cs.cornel[...]
1997
[33]
논문
Rule-injection hints as a means of improving network performance and learning time
1990
[34]
저널
Learning from hints in neural networks
1990
[35]
ArXiv 인용
Convex Learning of Multiple Tasks and their Structure
2015
[36]
논문
Exploiting Unrelated Tasks in Multi-Task Learning
http://jmlr.csail.mi[...]
2012
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com