특징 학습

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

특징 학습은 기계 학습의 한 분야로, 데이터를 효과적으로 표현하는 방법을 연구한다. 지도 학습, 비지도 학습, 딥 러닝, 자기 지도 학습, 동적 표현 학습 등 다양한 접근 방식이 존재한다. 지도 학습은 레이블이 있는 데이터를 사용하여 특징을 학습하며, 비지도 학습은 레이블이 없는 데이터로부터 특징을 추출한다. 딥 러닝은 여러 층의 노드를 쌓아 특징을 학습하는 방식으로, 생물학적 신경망을 모방한다. 자기 지도 학습은 데이터의 구조를 활용하여 특징을 학습하며, 다양한 데이터 유형에 적용된다. 동적 표현 학습은 시간에 따라 변화하는 시스템의 특징을 학습하는 데 사용된다.

더 읽어볼만한 페이지

기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
기계 학습 - 지도 학습
지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.

특징 학습
개요
유형	기계 학습 기술
목적	특징을 자동으로 발견하고 표현 학습
관련 분야	기계 학습, 패턴 인식, 신경망, 딥 러닝
세부 사항
특징 학습 목표	원시 데이터를 변환하여 유용한 특징 추출
주요 접근 방식	지도 학습 비지도 학습 자기 지도 학습
학습 방법	필터 학습 임베딩 희소 코딩 사전 학습 매니폴드 학습
활용
주요 응용 분야	컴퓨터 비전 자연어 처리 음성 인식 정보 검색 로보틱스
예시	단어 임베딩 (Word2Vec, GloVe) 오토인코더 합성곱 신경망 (CNN)
기타
장점	수동 특징 공학의 필요성 감소 데이터의 숨겨진 패턴 발견 다양한 작업에 대한 일반화 성능 향상
과제	학습된 특징의 해석 가능성 부족 대규모 데이터셋 필요 하이퍼파라미터 튜닝의 어려움

2. 지도 학습

지도 특징 학습은 레이블이 지정된 데이터로부터 특징을 학습하는 것이다. 데이터 레이블은 시스템이 오류 항(시스템이 레이블을 생성하지 못하는 정도)을 계산할 수 있게 하며, 이는 학습 과정을 수정(오류 감소/최소화)하는 피드백으로 사용될 수 있다.

2. 1. 지도 사전 학습

지도 사전 학습은 입력 데이터와 레이블의 구조를 모두 활용하여 표현을 학습하는 방법이다.^[11] 이 기술은 사전 요소, 데이터 포인트를 나타내는 가중치 및 입력 데이터를 기반으로 하는 분류기의 매개변수를 공동으로 최적화하여 분류 문제에 사전 학습을 적용한다. 특히, 목적 함수는 분류 오류, 표현 오류, 각 데이터 포인트에 대한 표현 가중치에 대한 ''L1'' 정규화(데이터의 희소 표현 활성화) 및 분류기 매개변수에 대한 ''L2'' 정규화로 구성된 최소화 문제로 공식화된다.^[11]

2. 2. 신경망

신경망은 여러 개의 상호 연결된 노드 층으로 구성된 "네트워크"를 사용하는 학습 알고리즘 계열이다. 이는 동물의 신경계를 모방한 것으로, 여기서 노드는 뉴런으로, 가장자리는 시냅스로 간주된다. 각 가장자리에는 연관된 가중치가 있으며, 네트워크는 입력 데이터를 네트워크의 입력 계층에서 출력 계층으로 전달하기 위한 계산 규칙을 정의한다. 신경망과 관련된 네트워크 함수는 입력 계층과 출력 계층 간의 관계를 특징짓고, 이는 가중치에 의해 매개변수화된다. 적절하게 정의된 네트워크 함수를 사용하면 네트워크 함수(가중치)에 대한 비용 함수를 최소화하여 다양한 학습 작업을 수행할 수 있다.

다층 신경망은 특징 학습을 수행하는 데 사용될 수 있는데, 이는 은닉 계층에서 입력의 표현을 학습하고, 이를 출력 계층에서 분류 또는 회귀에 사용하기 때문이다. 이 유형의 가장 인기 있는 네트워크 아키텍처는 샴 네트워크이다.^[1]

3. 비지도 학습

비지도 학습은 레이블이 없는 데이터에서 특징을 학습하는 방법으로, 고차원 입력 데이터에 내재된 구조를 파악하여 저차원 특징을 발견하는 것을 목표로 한다.^[12]^[16] 비지도 특징 학습은 레이블이 없는 데이터 세트에서 학습된 특징을 활용하여, 레이블이 있는 데이터를 통한 지도 학습의 성능을 향상시키는 반지도 학습 형태로 사용될 수 있다.^[12]^[16]

3. 1. K-평균 군집화

K-평균 군집화는 벡터 양자화를 위한 접근 방식이다. 특히, ''n''개의 벡터 집합이 주어졌을 때, K-평균 군집화는 각 벡터가 가장 가까운 평균을 가진 클러스터에 속하도록 ''k''개의 클러스터(즉, 부분 집합)로 그룹화한다. 이 문제는 계산적으로 NP-난해하지만, 최적이 아닌 탐욕 알고리즘이 개발되었다.

K-평균 군집화는 레이블이 없는 입력 집합을 ''k''개의 클러스터로 그룹화한 다음, 이러한 클러스터의 중심점을 사용하여 특징을 생성하는 데 사용할 수 있다. 이러한 특징은 여러 가지 방법으로 생성될 수 있다. 가장 간단한 방법은 각 샘플에 ''k''개의 이진 특징을 추가하는 것으로, 여기서 각 특징 ''j''는 고려 중인 샘플에 가장 가까운 것이 K-평균에 의해 학습된 ''j''번째 중심점인 경우에만 1의 값을 갖는다.^[23] 클러스터까지의 거리를 특징으로 사용할 수도 있으며, 방사 기저 함수를 통해 변환한 후 사용할 수도 있다(이는 RBF 네트워크를 훈련하는 데 사용된 기술이다.^[13]). 코아테스와 응은 ''k''-평균의 특정 변형이 희소 코딩 알고리즘과 유사하게 동작한다는 점을 지적한다.^[14]

비지도 특징 학습 방법의 비교 평가에서, 코아테스, 리 및 응은 적절한 변환을 사용한 ''k''-평균 군집화가 이미지 분류 작업에서 최근에 개발된 오토인코더 및 RBM보다 성능이 우수하다는 것을 발견했다.^[23] ''K''-평균은 또한 NLP 분야, 특히 개체명 인식에서 성능을 향상시킨다;^[15] 여기에서 브라운 군집화와 분산 단어 표현(신경망 단어 임베딩이라고도 함)과 경쟁한다.^[16]

3. 2. 주성분 분석

주성분 분석(PCA)은 차원 축소에 자주 사용된다. 레이블이 지정되지 않은 ''n''개의 입력 데이터 벡터 집합이 주어지면, PCA는 데이터 행렬의 ''p''개 (입력 데이터의 차원보다 훨씬 작음)의 오른쪽 특이 벡터를 생성한다. 여기서 데이터 행렬의 ''k''번째 행은 입력의 표본 평균만큼 이동된 ''k''번째 입력 데이터 벡터이다 (즉, 데이터 벡터에서 표본 평균을 뺀다). 이와 동등하게, 이러한 특이 벡터는 입력 벡터의 표본 공분산 행렬의 ''p''개 가장 큰 고유값에 해당하는 고유 벡터이다. 이 ''p''개의 특이 벡터는 입력 데이터로부터 학습된 특징 벡터이며, 데이터가 가장 큰 변화를 보이는 방향을 나타낸다.^[12]^[16]

PCA는 ''p''개의 특이 벡터가 데이터 행렬의 선형 함수이므로 선형 특징 학습 접근 방식이다. 특이 벡터는 ''p''번의 반복으로 간단한 알고리즘을 통해 생성될 수 있다. ''i''번째 반복에서, 데이터 행렬의 ''(i-1)''번째 고유 벡터로의 투영이 빼지고, ''i''번째 특이 벡터는 잔여 데이터 행렬의 가장 큰 특이값에 해당하는 오른쪽 특이 벡터로 찾아진다.

PCA는 몇 가지 제한 사항이 있다. 첫째, 큰 분산을 가진 방향이 가장 중요하다고 가정하지만, 그렇지 않을 수도 있다. PCA는 원래 데이터의 직교 변환에만 의존하며, 데이터의 1차 및 2차 모멘트만 활용하므로 데이터 분포를 잘 특성화하지 못할 수 있다. 또한, PCA는 입력 데이터 벡터가 상관 관계가 있을 때만 (몇 개의 지배적인 고유값이 생성됨) 효과적으로 차원을 축소할 수 있다.

3. 3. 국소 선형 임베딩

국소 선형 임베딩(Local Linear Embedding, LLE)은 비선형 학습 접근 방식의 하나로, 레이블이 없는 고차원 입력을 바탕으로 저차원 이웃 보존 표현을 생성한다. 이 방식은 Roweis와 Saul (2000)에 의해 제안되었다.^[17]^[18] LLE의 핵심 아이디어는 원래 데이터 집합의 이웃이 가지는 기하학적 속성 일부를 유지하면서, 저차원 점들을 사용하여 고차원 데이터를 재구성하는 것이다.

LLE는 크게 두 단계로 이루어진다. 첫 번째 단계는 "이웃 보존" 단계로, 각 입력 데이터 점 ''Xi''는 ''K'' 최근접 이웃 데이터 점들의 가중 합으로 재구성된다. 이때 각 점과 연관된 가중치의 합은 1이 되어야 한다는 제약 조건 하에서 평균 제곱 재구성 오류(입력 점과 재구성된 점 간의 차이)를 최소화하는 최적의 가중치를 찾는다. 두 번째 단계는 "차원 축소" 단계로, 첫 번째 단계에서 구한 최적 가중치를 사용하여 표현 오류를 최소화하는 저차원 공간의 벡터를 찾는다. 첫 번째 단계에서는 데이터가 고정된 상태에서 가중치를 최적화하며, 이는 최소 제곱 문제로 해결할 수 있다. 두 번째 단계에서는 저차원 점들이 고정된 가중치를 바탕으로 최적화되며, 이는 희소 고유값 분해를 통해 해결할 수 있다.

첫 번째 단계에서 얻어진 재구성 가중치는 입력 데이터에서 이웃의 "내재적 기하학적 속성"을 담고 있다.^[18] 원래 데이터가 매끄러운 저차원 다양체 위에 놓여 있다면, 원래 데이터의 가중치에 의해 포착된 "내재적 기하학적 속성" 또한 다양체 위에 존재할 것으로 예상된다. 이것이 LLE의 두 번째 단계에서 동일한 가중치를 사용하는 이유이다. PCA와 비교했을 때, LLE는 기본 데이터 구조를 활용하는 데 더 강력한 모습을 보인다.

3. 4. 독립 성분 분석

독립 성분 분석(ICA)은 독립적인 비가우시안 성분들의 가중 합을 사용하여 데이터를 표현하는 기법이다.^[19] 모든 성분이 가우시안 분포를 따르는 경우 가중치를 고유하게 결정할 수 없으므로 비가우시안성을 가정한다.

3. 5. 비지도 사전 학습

비지도 사전 학습은 데이터 레이블을 활용하지 않고, 데이터의 기본 구조를 활용하여 사전 요소를 최적화한다. 비지도 사전 학습의 예시로는 희소 코딩이 있는데, 이는 레이블이 없는 입력 데이터로부터 데이터 표현을 위한 기저 함수(사전 요소)를 학습하는 것을 목표로 한다.^[20] 희소 코딩은 사전 요소의 수가 입력 데이터의 차원보다 큰 과잉 완료 사전을 학습하는 데 적용될 수 있다. 아하론 외 연구진은 희소 표현을 가능하게 하는 요소 사전 학습을 위한 알고리즘 K-SVD를 제안했다.^[21]

4. 딥 러닝

딥 러닝은 여러 층의 신경망을 사용하여 특징을 학습하는 방법이다.^[22] 이는 동물의 신경계를 모방한 것으로, 여러 층의 학습 노드를 쌓아 특징 학습을 수행한다. 딥 러닝 아키텍처는 분산 표현의 가정에 따라 설계되는데, 이는 관찰된 데이터가 여러 수준에서 다양한 요인의 상호 작용에 의해 생성된다는 것을 의미한다. 각 중간 계층의 출력은 원래 입력 데이터의 표현으로 볼 수 있으며, 각 계층은 이전 하위 계층에서 생성된 표현을 입력으로 사용하고 새로운 표현을 출력으로 생성하여 상위 계층에 공급한다. 최하위 계층의 입력은 원시 데이터이고, 최종 상위 계층의 출력은 최종 저차원 특징 또는 표현이 된다.

4. 1. 제한된 볼츠만 머신

제한된 볼츠만 머신(RBM)은 다층 학습 아키텍처의 구성 요소로 사용된다.^[23]^[24] RBM은 보이지 않는 변수 그룹, 보이는 변수 그룹, 그리고 숨겨진 노드와 보이는 노드를 연결하는 가장자리를 포함하는 무방향 이분 그래프로 표현될 수 있다. 이는 내부 노드 연결이 없는 제약 조건이 있는 더 일반적인 볼츠만 머신의 특수한 경우이다. RBM의 각 가장자리에는 가중치가 연결되어 있다. 가중치는 연결과 함께 에너지 함수를 정의하며, 이를 기반으로 보이는 노드와 숨겨진 노드의 결합 분포를 고안할 수 있다. RBM의 토폴로지에 따라 숨겨진 (보이는) 변수는 보이는 (숨겨진) 변수를 조건으로 독립적이다. 이러한 조건부 독립성은 계산을 용이하게 한다.

RBM은 비지도 특징 학습을 위한 단일 계층 아키텍처로 볼 수 있다. 특히, 보이는 변수는 입력 데이터에 해당하고, 숨겨진 변수는 특징 감지기에 해당한다. 가중치는 힌턴의 대조 발산(CD) 알고리즘을 사용하여 보이는 변수의 확률을 최대화함으로써 훈련될 수 있다.^[1]

일반적으로, 최대화 문제를 해결하여 RBM을 훈련하면 희소하지 않은 표현이 생성되는 경향이 있다. 희소 표현을 가능하게 하기 위해 희소 RBM이 제안되었다.^[25] 아이디어는 데이터 우도(likelihood)의 목적 함수에 정규화 항을 추가하여 예상되는 숨겨진 변수가 작은 상수

p

에서 벗어나는 것을 제약하는 것이다. RBM은 또한 흥미로운 특징이 별도의 숨겨진 단위에 매핑되는 데이터의 ''분리된'' 표현을 얻는 데 사용되었다.^[26]

4. 2. 오토인코더

오토인코더는 인코더와 디코더로 구성된 딥 러닝 아키텍처의 한 유형이다. 힌튼과 살라쿠디노프^[1]가 제공한 예시에서 인코더는 원시 데이터(예: 이미지)를 입력으로 받아 특징 또는 표현을 출력으로 생성하며, 디코더는 인코더에서 추출된 특징을 입력으로 사용하여 원본 입력 원시 데이터를 재구성한다. 인코더와 디코더는 여러 층의 RBM(제한된 볼츠만 머신)을 쌓아 구성된다. 아키텍처에 포함된 매개변수는 원래 탐욕 레이어별 방식으로 훈련되었다. 즉, 특징 감지기 한 층이 학습된 후, 해당 RBM을 훈련하기 위한 가시 변수로 제공된다. 현재 접근 방식은 일반적으로 확률적 경사 하강법을 사용하여 종단 간(end-to-end) 훈련을 적용한다. 훈련은 특정 중지 기준이 충족될 때까지 반복될 수 있다.

5. 자기 지도 학습

자기 지도 학습은 레이블이 없는 데이터의 구조를 이용하여 특징을 학습하는 방법으로, 명시적인 정보 신호 레이블에 의존하지 않는다.^[8] 이 방식은 심층 신경망 구조와 대규모 레이블 없는 데이터 세트를 결합하여 심층 특징 표현을 생성한다.^[8] 훈련은 주로 대비(contrastive) 방식, 생성(generative) 방식, 또는 이 둘을 모두 사용하는 방식으로 나뉜다.^[27] 대비 표현 학습은 관련된 데이터 쌍(양성 샘플)의 표현을 유사하게 만들고, 관계없는 쌍(음성 샘플)의 표현은 대조되도록 훈련한다. 모든 입력이 동일한 표현으로 매핑되는 붕괴 현상을 방지하기 위해, 일반적으로 더 많은 음성 샘플이 필요하다.^[8] 생성 표현 학습은 모델이 제한된 입력을 일치시키거나, 저차원 표현으로부터 전체 입력을 재구성하여 올바른 데이터를 생성하도록 한다.^[27]

일반적으로 특정 데이터 유형(텍스트, 이미지, 오디오, 비디오 등)에 대한 자기 지도 학습은 레이블이 없는 대규모 데이터 세트를 사용하여 모델을 사전 훈련하는 방식으로 이루어진다.^[10] 이 결과는 새로운 데이터를 분해할 수 있는 일반적인 데이터 세그먼트(예: 단어)에 대한 표현 집합이거나, 각 데이터 포인트(예: 이미지)를 저차원 특징 집합으로 변환하는 신경망이 될 수 있다.^[8] 어떤 경우든, 출력 표현은 레이블이 지정된 데이터가 제한적인 여러 다른 문제 설정에서 초기값으로 사용될 수 있다. 특정 작업에 대한 모델의 전문화는 보통 지도 학습을 통해 이루어지며, 레이블을 신호로 사용하여 모델이나 표현을 미세 조정하거나, 표현을 고정하고 이를 입력으로 사용하는 추가 모델을 훈련한다.^[10]

다양한 모달리티에서 표현 학습을 위해 여러 자기 지도 훈련 방식이 개발되었으며, 다른 데이터 유형으로 확장되기 전에 주로 텍스트나 이미지 분야에서 먼저 성공적인 적용 사례를 보인다.^[8]

5. 1. 텍스트

Word2vec는 텍스트의 대규모 말뭉치에서 슬라이딩 윈도우를 사용하여 각 단어와 이웃 단어에 대한 자기 지도 학습을 통해 단어를 표현하는 단어 임베딩 기술이다.^[28] 이 모델은 단어 벡터 표현을 생성하기 위해 생성적인 방식과 대비적인 방식, 두 가지 훈련 방식을 가지고 있다.^[27] 생성적인 방식은 각 이웃 단어를 입력으로 사용하여 단어를 예측하는 것이다.^[28] 대비적인 방식은 이웃 단어의 표현 유사성과 무작위 단어 쌍의 표현 비유사성에 대한 훈련이다.^[9] Word2vec의 한계는 데이터의 쌍별 동시 발생 구조만 사용하고 순서나 전체 컨텍스트 단어 집합은 사용하지 않는다는 것이다. 더 최근의 트랜스포머 기반 표현 학습 접근 방식은 단어 예측 작업을 통해 이를 해결하려고 시도한다.^[8] GPT는 이전 입력 단어를 컨텍스트로 사용하여 다음 단어 예측에 대해 사전 훈련을 수행하고,^[29] 반면 BERT는 양방향 컨텍스트를 제공하기 위해 무작위 토큰을 마스킹한다.^[30]

다른 자기 지도 학습 기술은 입력 데이터에서 문장 임베딩 또는 단락과 같은 더 큰 텍스트 구조에 대한 표현을 찾아 단어 임베딩을 확장한다.^[8] Doc2vec은 단어가 속한 단락을 기반으로 단어 예측 작업에 추가 입력을 추가하여 Word2vec의 생성적 훈련 방식을 확장하므로 단락 수준 컨텍스트를 표현하도록 의도되었다.^[31]

5. 2. 이미지

이미지 표현 학습 분야에서는 변환,^[32] 인페인팅,^[33] 패치 구별^[34] 및 클러스터링을 포함한 다양한 자기 지도 학습 기술이 사용되어 왔다.^[35]

생성적 접근 방식의 예로는 AlexNet CNN 아키텍처를 훈련하여 마스크된 이미지를 입력으로 받아 제거된 이미지 영역을 생성하는 컨텍스트 인코더^[33]와, GPT-2 언어 모델 아키텍처를 이미지 해상도를 줄인 후 픽셀 예측을 통해 이미지를 학습시키는 iGPT가 있다.^[36]

다른 많은 자가 지도 방식에서는 샴 네트워크를 사용하는데, 이는 다양한 증강을 통해 이미지의 다른 뷰를 생성한 다음 유사한 표현을 갖도록 정렬한다. 여기서 과제는 모델이 모든 이미지를 동일한 표현으로 인코딩하는 붕괴 해를 피하는 것이다.^[37] SimCLR은 ResNet CNN을 사용하여 이미지 표현을 생성하기 위해 음성 예제를 사용하는 대비적 접근 방식이다.^[34] Bootstrap Your Own Latent (BYOL)는 훈련 중에 수정되는 모델 파라미터의 느리게 이동하는 평균으로 뷰 중 하나를 인코딩하여 음성 샘플에 대한 필요성을 제거한다.^[38]

5. 3. 그래프

그래프 표현 학습 기술은 전체 네트워크 토폴로지를 기반으로 각 노드의 내장된 표현을 생성하는 것을 목표로 한다.^[39] node2vec은 그래프를 통한 랜덤 워크에서 동시 발생을 연관성의 척도로 사용하여 word2vec 훈련 기술을 그래프의 노드로 확장한다.^[40] 또 다른 접근 방식은 그래프 내에서 연관된 구조의 표현 사이의 유사성 척도인 상호 정보량을 최대화하는 것이다.^[8] 그 예로 Deep Graph Infomax가 있는데, 각 노드 주변의 "패치" 표현과 전체 그래프의 요약 표현 사이의 상호 정보량을 기반으로 하는 대조적 자기 감독을 사용한다. 음성 샘플은 그래프 표현을 다중 그래프 훈련 설정에서 다른 그래프의 표현과 쌍으로 묶거나, 단일 그래프 훈련에서 손상된 패치 표현과 쌍으로 묶어 얻는다.^[41]

5. 4. 비디오

비디오 데이터에 대한 자기 지도 학습은 이미지 기술과 유사하지만, 비디오 프레임의 시간적 순서를 고려하여 특징을 추출한다.^[42] 마스크 예측^[42] 및 클러스터링^[43]과 유사한 결과를 낸다. 비디오 클립을 마스크 처리하고 주어진 클립 옵션 세트에서 올바른 클립을 선택하도록 학습하는 VCP와, 섞인 비디오 클립 세트에서 원래 순서를 식별하도록 3D-CNN을 학습시키는 방법 등이 있다.^[44]

5. 5. 오디오

오디오 데이터에 대한 자기 지도 학습은 Wav2vec 2.0과 같이 파형 데이터를 분석하여 특징을 추출하는 방식으로 이루어진다. Wav2vec 2.0은 시간적 합성곱 신경망을 통해 파형을 타임스텝으로 이산화한 다음, 대비 손실을 사용하여 임의의 타임스텝의 마스킹된 예측에 대해 트랜스포머를 훈련시킨다.^[45] 이는 BERT 언어 모델과 유사하지만, 비디오에 대한 많은 SSL 접근 방식과 마찬가지로, 모델은 전체 단어 어휘가 아닌 일련의 옵션 중에서 선택한다.^[30]^[45]

5. 6. 다중 모드

다중 모드 자기 지도 학습은 이미지와 텍스트, 비디오와 오디오 등 서로 다른 유형의 데이터를 함께 학습하여 특징을 추출한다. 이러한 접근 방식은 일반적으로 특징적인 소리를 가진 동물이나 물체의 비디오 클립,^[46] 또는 이미지를 설명하기 위해 작성된 캡션^[47]과 같이 모드 간의 자연적이거나 인간이 파생한 연관성에 암묵적 레이블로 의존한다.

CLIP은 대비 손실을 사용하여 대규모 이미지-캡션 쌍 데이터 세트에서 이미지 및 텍스트 인코딩을 정렬하도록 학습하여 공동 이미지-텍스트 표현 공간을 생성한다.^[47] MERLOT Reserve는 비디오 프레임과 주변 오디오 및 텍스트 컨텍스트를 고려하여 오디오 또는 텍스트 세그먼트의 대비 마스킹 예측과 비디오 프레임을 해당 캡션과 대비 정렬하는 3가지 공동 사전 학습 작업을 통해 대규모 비디오 데이터 세트에서 오디오, 자막 및 비디오 프레임을 공동으로 표현하도록 트랜스포머 기반 인코더를 학습시킨다.^[46]

다중 모드 표현 모델은 서로 다른 모드의 표현의 직접적인 일치를 가정할 수 없는 경우가 많다. 정확한 정렬이 종종 노이즈가 많거나 모호할 수 있기 때문이다. 예를 들어 "개"라는 텍스트는 다양한 개 사진과 짝을 이룰 수 있으며, 이와 유사하게 개 사진은 다양한 수준의 구체성으로 캡션이 지정될 수 있다. 이러한 제한으로 인해 다운스트림 작업은 텍스트를 이미지로 생성하는 DALLE-2와 같이 최적의 성능을 달성하기 위해 모드 간에 추가적인 생성 매핑 네트워크가 필요할 수 있다.^[48]

6. 동적 표현 학습

동적 표현 학습 방법^[49]^[50]은 동적 네트워크와 같은 동적 시스템에 대한 잠재 임베딩을 생성한다. 특정 거리 함수는 특정 선형 변환에 불변하므로, 서로 다른 임베딩 벡터 집합이 실제로 동일하거나 유사한 정보를 나타낼 수 있다. 따라서 동적 시스템의 임베딩에서 시간적 차이는 임의의 변환 및/또는 시스템의 실제 변화로 인한 임베딩의 불일치로 설명될 수 있다.^[51] 그러므로 일반적으로 동적 표현 학습 방법을 통해 학습된 시간적 임베딩은 불필요한 변화가 있는지 확인하고 후속 동적 분석 전에 정렬해야 한다.

참조

_[1] 서적 Deep learning Cambridge, Massachusetts
_[2] 논문 Representation Learning: A Review and New Perspectives
_[3] 서적 Artificial Intelligence: A Modern Approach Prentice Hall
_[4] 서적 Unsupervised Learning: Foundations of Neural Computation MIT Press
_[5] 학술대회 Maximum-Margin Matrix Factorization
_[6] 학술대회 Visual categorization with bags of keypoints https://www.cs.cmu.e[...]
_[7] 서적 Speech and Language Processing Pearson Education International
_[8] 논문 Self-Supervised Representation Learning: Introduction, advances, and challenges https://ieeexplore.i[...] 2022-05
_[9] 논문 Distributed Representations of Words and Phrases and their Compositionality https://proceedings.[...] Curran Associates, Inc. 2013
_[10] 서적 Deep learning Cambridge, Massachusetts
_[11] 논문 Supervised Dictionary Learning 2009
_[12] 학위논문 Semi-Supervised Learning for Natural Language http://people.csail.[...] Massachusetts Institute of Technology
_[13] 논문 Three learning phases for radial-basis-function networks
_[14] 백과사전 Learning feature representations with k-means Springer
_[15] 학술대회 Phrase clustering for discriminative learning https://web.archive.[...] 2013-07-14
_[16] 학술대회 Word representations: a simple and general method for semi-supervised learning https://web.archive.[...] 2014-02-22
_[17] 논문 Nonlinear Dimensionality Reduction by Locally Linear Embedding 2000
_[18] 논문 An Introduction to Locally Linear Embedding http://www.cs.toront[...] 2000
_[19] 논문 Independent Component Analysis: Algorithms and Applications 2000
_[20] 논문 Efficient sparse coding algorithms 2007
_[21] 논문 K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation 2006
_[22] 논문 Learning Deep Architectures for AI 2009
_[23] 학술대회 An analysis of single-layer networks in unsupervised feature learning https://web.archive.[...] 2014-11-24
_[24] 논문 Reducing the Dimensionality of Data with Neural Networks https://web.archive.[...] 2015-08-29
_[25] 논문 Sparse deep belief net model for visual area V2 2008
_[26] 논문 Disentangling Representations in Restricted Boltzmann Machines without Adversaries https://link.aps.org[...] 2023-04-05
_[27] 논문 Self-supervised Learning: Generative or Contrastive https://ieeexplore.i[...] 2021
_[28] arXiv Efficient Estimation of Word Representations in Vector Space 2013-09-06
_[29] 문서 Improving Language Understanding by Generative Pre-Training https://s3-us-west-2[...] 2022-10-10
_[30] 논문 Proceedings of the 2019 Conference of the North https://aclanthology[...] Association for Computational Linguistics 2019-06
_[31] 논문 Distributed Representations of Sentences and Documents https://proceedings.[...] PMLR 2014-06-18
_[32] 문서 Unsupervised representation learning by predicting image rotations. https://openreview.n[...]
_[33] 논문 Context Encoders: Feature Learning by Inpainting https://openaccess.t[...] 2016
_[34] 논문 A Simple Framework for Contrastive Learning of Visual Representations https://proceedings.[...] PMLR 2020-11-21
_[35] 논문 Unsupervised Learning of Visual Features by Contrasting Cluster Assignments https://proceedings.[...] 2020
_[36] 논문 Generative Pretraining From Pixels https://proceedings.[...] PMLR 2020-11-21
_[37] 논문 Exploring Simple Siamese Representation Learning https://openaccess.t[...] 2021
_[38] 논문 Bootstrap Your Own Latent - A New Approach to Self-Supervised Learning https://proceedings.[...] 2020
_[39] 논문 A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications https://ieeexplore.i[...] 2018-09
_[40] 서적 Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Association for Computing Machinery 2016-08-13
_[41] 논문 Deep Graph InfoMax. https://openreview.n[...] 2019
_[42] 논문 Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning https://ojs.aaai.org[...] 2020-04-03
_[43] 논문 Self-Supervised Learning by Cross-Modal Audio-Video Clustering https://proceedings.[...] 2020
_[44] 서적 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2019-06
_[45] 논문 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations https://proceedings.[...] 2020
_[46] 논문 MERLOT Reserve: Neural Script Knowledge Through Vision and Language and Sound https://openaccess.t[...] 2022
_[47] 논문 Learning Transferable Visual Models From Natural Language Supervision https://proceedings.[...] PMLR 2021-07-01
_[48] 논문 Hierarchical Text-Conditional Image Generation with CLIP Latents 2022-04-12
_[49] 논문 Network Representation Learning: A Survey https://ieeexplore.i[...] 2020-03
_[50] 논문 Variational Autoencoders for Learning Nonlinear Dynamics of Physical Systems https://doi.org/10.4[...] 2021
_[51] 논문 Alignment and stability of embeddings: Measurement and inference improvement https://www.scienced[...] 2023-10-07
_[52] 서적 Artificial Intelligence: A Modern Approach Prentice Hall 2010
_[53] 서적 Unsupervised Learning: Foundations of Neural Computation MIT Press 1999
_[54] 콘퍼런스 Maximum-Margin Matrix Factorization
_[55] 콘퍼런스 An analysis of single-layer networks in unsupervised feature learning http://machinelearni[...] 2014-11-24
_[56] 콘퍼런스 Visual categorization with bags of keypoints https://www.cs.cmu.e[...]
_[57] 서적 Speech and Language Processing Pearson Education International
_[58] 저널 Self-Supervised Representation Learning: Introduction, advances, and challenges https://ieeexplore.i[...] 2022-05
_[59] 저널 Distributed Representations of Words and Phrases and their Compositionality https://proceedings.[...] Curran Associates, Inc. 2013
_[60] 서적 Deep learning 2016

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com