파운데이션 모델

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

파운데이션 모델은 광범위한 데이터로 훈련되어 다양한 작업에 적용할 수 있는 인공지능 모델을 의미한다. 2021년 스탠퍼드 인공지능 연구소에서 이 용어를 처음 사용했으며, 미국, 유럽 연합, 영국 등 여러 국가에서 법적 정의를 내리고 있다. 파운데이션 모델은 딥 뉴럴 네트워크, 전이 학습, 자기 지도 학습과 같은 기술을 활용하며, 기존의 맞춤형 모델과 달리 재사용 가능한 인프라 역할을 한다. 이러한 모델의 발전은 컴퓨터 병렬 처리, 신경망 아키텍처, 훈련 데이터 증가에 기인하며, Stable Diffusion, ChatGPT, LLaMA, Gemini 등이 대표적인 예시이다. 파운데이션 모델은 프론티어 모델, 범용 인공지능과 관련되며, 모델링, 훈련, 데이터, 시스템, 스케일링, 적응, 평가 등의 기술적 세부 사항을 가진다. 파운데이션 모델의 공급망은 데이터, 컴퓨팅, 노동력, 하드웨어, 코드 등 다양한 자원을 필요로 하며, 출시 전략은 API, 직접 모델 다운로드, 공개 또는 비공개 출시 등으로 다양하다. 파운데이션 모델은 기회와 위험을 모두 가지고 있으며, 경제적, 정치적 권력의 집중화에 대한 우려가 제기되고 있다.

더 읽어볼만한 페이지

언어 모델 - 환각 (인공지능)
인공지능 환각은 인공지능이 사실이 아닌 정보를 사실처럼 생성하는 현상으로, 대규모 언어 모델의 부정확한 정보 생성 문제를 설명하기 위해 사용되며, 데이터 불일치, 모델 오류, 훈련 데이터 부족 등이 원인으로 발생하여 다양한 완화 기술이 연구되고 있다.
언어 모델 - N-그램
N-그램은 텍스트나 음성 데이터에서 나타나는 n개의 항목 시퀀스로, 언어 모델링, 텍스트 분석, DNA 서열 분석 등에서 데이터의 특성을 파악하고 예측하는 데 활용된다.
계산 학문 분야 - 계산물리학
계산물리학은 컴퓨터를 활용하여 물리 현상을 시뮬레이션하고 연구하는 분야이며, 수학적 모형과 수치값을 사용하여 다양한 물리 분야에 적용된다.
계산 학문 분야 - 화학정보학
화학정보학은 화학, 컴퓨터 과학, 정보 과학을 융합하여 신약 개발에 기여하는 학문 분야이며, 화합물 정보 관리, 가상 스크리닝 등 다양한 분야에 응용된다.
비지도 학습 - 챗GPT
챗GPT는 오픈AI가 개발한 GPT-3.5 기반의 대화형 인공지능 서비스로, 인간과 유사한 텍스트 생성, 코드 생성, 보고서 작성, 번역 등의 다양한 기능을 제공하지만, 편향된 정보 생성, 데이터 유출, 윤리 및 저작권 문제 등의 논란도 있으며, 유료 서비스를 포함한 다양한 형태로 제공되고, 지속적인 모델 개발을 통해 성능을 향상시키고 있다.
비지도 학습 - 환각 (인공지능)
인공지능 환각은 인공지능이 사실이 아닌 정보를 사실처럼 생성하는 현상으로, 대규모 언어 모델의 부정확한 정보 생성 문제를 설명하기 위해 사용되며, 데이터 불일치, 모델 오류, 훈련 데이터 부족 등이 원인으로 발생하여 다양한 완화 기술이 연구되고 있다.

2. 정의

스탠퍼드 대학교의 인간 중심 인공지능 연구소(Stanford Institute for Human-Centered Artificial Intelligence, HAI) 산하 파운데이션 모델 연구 센터(Center for Research on Foundation Models, CRFM)는 2021년 8월 '파운데이션 모델(Foundation Model)'이라는 용어를 처음 제안했다.^[16]^[69] 이는 "광범위한 데이터로 훈련되어 (일반적으로 대규모 자기 지도 학습 방식을 사용하여), 다양한 하위 작업(downstream task)에 적용(예: 미세 조정)될 수 있는 모든 모델"을 의미한다.^[17]^[69]

이 용어는 기존에 사용되던 용어들이 파운데이션 모델의 특성을 온전히 설명하기 어렵다는 문제의식에서 비롯되었다. 예를 들어, '대규모 언어 모델(LLM)'은 모델의 적용 범위가 언어에만 국한되지 않으므로 너무 협소하고, '자기 지도 학습 모델'은 훈련 방식에만 초점을 맞추며, '사전 훈련 모델'은 마치 중요한 작업이 모두 '사전 훈련' 이후에만 일어나는 듯한 인상을 줄 수 있다는 것이다.^[18]^[70] 또한 'foundational model' 대신 '파운데이션 모델(foundation model)'이라는 용어를 선택한 이유는, 이 모델들이 특정 분야의 기반(foundation)이 되어 다양한 응용을 가능하게 한다는 점을 강조하기 위함이다.^[19]^[20]

2. 1. 법적 정의

정부들이 인공지능 규제를 모색하면서 파운데이션 모델에 대한 법적 정의가 등장하기 시작했다. 주요 국가 및 기관별 정의는 다음과 같다.

각 정의들은 파운데이션 모델이 광범위한 데이터로 훈련되어 다양한 영역에 적용될 잠재력을 가진다는 점에는 동의한다. 하지만 세부적인 부분에서는 차이를 보인다. 미국의 정의만이 모델의 크기(매개변수 수)를 구체적으로 언급하며, 행정명령과 하원 법안 간에도 그 기준이 다르다. 특히 민주당 소속 돈 베이어 의원과 안나 에슈 의원이 발의한 법안은 파운데이션 모델이 잠재적 위험을 초래할 만큼 높은 성능을 가져야 한다는 조건을 추가하여 규제의 필요성을 강조하고 있다.^[22] 반면, 유럽 연합의 정의는 모델이 일반적인 목적의 출력을 위해 설계되어야 한다는 점을 특징으로 한다.

3. 역사

파운데이션 모델은 기술적으로 딥 뉴럴 네트워크, 전이 학습, 자기 지도 학습과 같은 기존의 머신러닝 기술을 기반으로 만들어진다. 하지만 특정 작업만을 위해 맞춤 제작되던 이전 모델과 달리, 파운데이션 모델은 다양한 목적으로 재사용될 수 있는 범용 모델이라는 점에서 차이가 있다.

CUDA GPU와 같은 컴퓨터 병렬 처리 기술의 발전, 트랜스포머와 같은 새로운 신경망 구조의 개발, 그리고 최소한의 감독만으로 방대한 데이터를 학습하는 방식의 증가는 모두 파운데이션 모델의 부상에 기여했다. 파운데이션 모델은 2010년대 후반 딥러닝 모델의 최신 흐름으로 구체화되기 시작했다.^[23] 이전 딥러닝 연구와 비교하여, 이러한 언어 모델은 자기 지도 학습 목표(예: 대규모 텍스트 말뭉치에서 다음 단어 예측)를 사용하여 훨씬 더 큰 웹 소스 데이터 세트에서 훈련할 수 있는 잠재력을 보여주었다. word2vec 및 GloVe와 같은 이전 작업을 활용하는 이러한 접근 방식은, 주석 처리된 데이터(예: 크라우드소싱된 레이블)가 필요한 이전의 지도 학습 방식에서 벗어났다.

2022년 Stable Diffusion 및 ChatGPT(초기에는 GPT-3.5 모델로 구동됨)의 출시는 파운데이션 모델과 생성형 인공지능이 광범위한 대중 담론에 진입하도록 이끌었다. 또한 2023년 LLaMA, Llama 2 및 Mistral의 출시는 오픈 소스 파운데이션 모델이 많은 지지^[24]와 조사를 받으면서^[25] 모델 출시 방식에 대한 더 큰 관심을 불러일으키는 데 기여했다.

2023년 12월, 구글은 새로운 파운데이션 모델 Gemini를 발표했다. 구글은 이 모델이 일반적인 작업에서 전문가의 성과를 능가하며 과학 문헌 분석도 가능하다고 주장한다.

4. 관련 개념

스탠퍼드 인간 중심 인공지능 연구소(HAI)의 기초 모델 연구 센터(CRFM)는 2021년 8월 "파운데이션 모델"이라는 용어를 처음 사용했다. 이 용어는 "(일반적으로 대규모 자기 지도 학습을 통해) 광범위한 데이터로 훈련되어, 하위의 광범위한 작업에 적응할 수 있는 모든 모델"을 의미한다.^[69] 연구소는 언어뿐만 아니라 다양한 분야에 적용될 수 있다는 점을 고려하여, 기존의 대규모 언어 모델이라는 용어보다 더 포괄적인 의미를 담기 위해 파운데이션 모델이라는 용어를 선택했다.^[70]

4. 1. 프론티어 모델

특정 고도로 발전된 파운데이션 모델은 "프론티어 모델"이라고 불리며, "공공 안전에 심각한 위험을 초래할 수 있는 위험한 능력을 가질" 잠재력이 있다.^[26] 이러한 "위험한 능력"은 해당 모델들의 의도치 않거나 의도적인 오용에서 비롯될 수 있으며, 강력한 성능과 결합되어 심각한 피해를 초래할 수 있다. 파운데이션 모델이 계속 발전함에 따라, 일부 인공지능 연구자들은 앞으로 등장할 거의 모든 차세대 파운데이션 모델이 프론티어 모델로 간주될 것이라고 예측하기도 한다.

'위험한 능력'이라는 개념 자체가 주관적일 수 있으므로, 어떤 파운데이션 모델이 프론티어 모델에 해당하는지에 대한 엄격한 기준은 아직 없다. 그러나 일반적으로 다음과 같은 능력들이 위험하다고 여겨진다.

새로운 생물학적 무기 또는 화학적 무기를 설계하고 합성하는 것^[27]
최소한의 사용자 지시만으로 설득력 있고 개인에게 맞춤화된 허위 정보를 생성하고 퍼뜨리는 것^[28]
전례 없는 수준의 공격적인 사이버 공격 능력을 활용하는 것^[29]
기만적인 방법을 통해 인간의 통제를 회피하는 것^[30]

프론티어 모델은 그 고유한 특성 때문에 개발 및 배포를 효과적으로 규제하기 어렵다. 프론티어 모델은 예측하지 못한 새로운 특성이 나타날 수 있으므로, 개발 단계와 배포 후 모두에서 새로운 위험한 능력이 갑자기 나타날 수 있다.^[26] 또한, 프론티어 모델은 배포된 후에도 계속해서 적응하고 변화하기 때문에, 이미 사용 중인 모델에서 발생하는 모든 피해를 완화하는 것이 여전히 어렵다. 만약 프론티어 모델이 오픈 소스로 공개되거나 온라인에 출시되는 경우, 모델이 빠르게 확산될 수 있으며 이는 책임 소재를 불분명하게 만들어 규제 기관의 역할을 더욱 어렵게 만든다.

4. 2. 범용 인공지능

파운데이션 모델은 다양한 사용 사례에 적용될 수 있기 때문에 때때로 범용 인공지능(general-purpose AI)의 한 예시로 여겨진다. 유럽 의회는 유럽연합 인공지능법을 마련하는 과정에서, 새로운 범용 인공지능 기술이 전체 인공지능 생태계를 만들어가고 있다고 밝혔다.^[31] 특정 범용 인공지능 시스템의 특징뿐만 아니라, 생태계 전체의 구조는 인공지능 정책 및 연구 설계에도 영향을 미친다.^[32] 챗GPT나 DALL-E와 같은 응용 프로그램과 도구를 통해 범용 인공지능 시스템은 사람들의 일상생활에도 자주 등장하고 있다.

유럽 의회와 같은 정부 기관들은 파운데이션 모델과 같은 범용 인공지능을 규제하는 것을 중요한 과제로 인식하고 있다. 범용 인공지능 시스템은 규모가 크고, 작동 원리가 불투명하며, 예상치 못한 능력이 나타나는 창발성의 가능성을 가지고 있어 의도하지 않은 피해를 일으킬 수 있다. 또한 이러한 시스템은 이후 개발되는 응용 프로그램들에 큰 영향을 미치기 때문에 규제의 필요성이 더욱 커지고 있다. 주요 입법 과정에서 많은 이해 관계자들은 EU AI Act에 범용 인공지능 시스템에 대한 제한을 포함해야 한다고 요구했으며, 이러한 규제는 파운데이션 모델에도 적용될 가능성이 높다.

5. 기술적 세부 사항

파운데이션 모델은 대규모 데이터를 기반으로 일반화된 능력을 학습하기 위해 복잡한 기술적 요소들을 포괄한다. 모델의 성능은 효과적인 데이터 표현을 학습하는 모델 아키텍처(주로 트랜스포머 사용^[17]^[33])와 방대한 데이터를 처리하는 훈련 방식^[34]^[35]에 크게 의존한다. 이 과정에서 사용되는 데이터의 규모와 품질^[36]^[37], 그리고 개인 정보 보호^[38] 등은 중요한 고려 사항이다. 또한, 모델의 거대한 크기는 상당한 컴퓨팅 자원^[39]을 요구하며, 이는 모델 개발 및 운영의 주요 과제 중 하나이다. 모델 크기, 데이터 양, 컴퓨팅 자원과 성능 간의 관계는 스케일링 법칙^[40]을 통해 분석되기도 한다. 개발된 모델을 특정 목적에 맞게 사용하는 적응^[41] 과정과 모델의 성능 및 영향을 다각도로 측정하는 평가^[42]^[43]^[44]^[45]^[46]^[47]^[48]^[49]^[50]^[51]^[52] 역시 파운데이션 모델 생태계의 중요한 부분을 이룬다. 이러한 기술적 세부 사항들은 파운데이션 모델의 발전 방향과 사회적 영향을 형성하는 핵심 요소들이다.

5. 1. 모델링

파운데이션 모델이 효과적으로 일반화되려면 훈련 데이터로부터 풍부한 표현을 습득해야 한다. 결과적으로, 대규모 데이터를 효율적으로 처리할 수 있는 표현력 있는 모델 아키텍처가 파운데이션 모델 구축에 선호되는 경향이 있다.^[17] 현재는 트랜스포머 아키텍처가 다양한 종류의 데이터(모달리티)를 다루는 파운데이션 모델을 구축하는 데 사실상의 표준으로 사용되고 있다.^[33]

5. 2. 훈련

파운데이션 모델은 훈련 목표를 최적화하여 구축된다. 훈련 목표는 훈련 데이터에 대한 모델 예측을 바탕으로 모델의 매개변수가 어떻게 업데이트될지를 결정하는 수학적 함수이다.^[34]

언어 모델: 주로 다음 토큰 예측 목표를 사용하여 훈련된다. 이는 모델이 주어진 시퀀스에서 다음에 올 토큰을 얼마나 잘 예측하는지를 평가한다.
이미지 모델: 일반적으로 대비 학습 또는 확산 모델 훈련 목표를 사용한다.
대비 학습: 이미지를 무작위로 변형(증강)한 후, 모델이 생성한 표현들의 유사성을 평가한다.
확산 모델: 원본 이미지에 노이즈를 추가하고, 모델이 점진적으로 노이즈를 제거하는 방법을 학습하도록 훈련한다.
멀티모달 모델: 이미지와 텍스트를 함께 처리하는 훈련 목표도 존재한다. 훈련 과정에서 이미지와 텍스트를 분리하여 다루기도 하고, 동시에 검토하기도 한다.^[35]

일반적으로 파운데이션 모델의 훈련 목표는 다양한 작업에 널리 사용될 수 있는 유용한 데이터 표현을 학습하도록 설계된다.

파운데이션 모델의 규모가 커지고 사용하는 데이터 세트가 방대해짐에 따라, 훈련 목표는 다음과 같은 특징을 가져야 한다.

1. 데이터 구문 분석 능력: 인터넷 규모의 방대한 데이터 속에서 의미 있는 정보를 효과적으로 찾아내고 분석할 수 있어야 한다.

2. 도메인 완전성: 특정 분야(도메인) 내의 다양한 하위 문제들을 포괄적으로 해결할 수 있도록 설계되어야 한다. 파운데이션 모델은 일반적인 범위의 작업을 해결하는 것을 목표로 하기 때문이다.

3. 확장성 및 계산 효율성: 모델의 크기가 커지고 더 많은 계산 능력이 요구되는 상황에서, 훈련 목표는 이러한 제약을 극복하고 효율적으로 확장될 수 있어야 한다. 모델 크기와 계산 능력은 훈련 과정의 주요 병목 현상이 될 수 있으므로, 이를 고려한 훈련 목표 설계가 중요하다.

5. 3. 데이터

파운데이션 모델은 "데이터가 많을수록 좋다"는 원칙에 따라 대규모 데이터 세트를 사용하여 훈련된다.^[36] 일반적으로 더 많은 데이터는 더 나은 성능으로 이어지지만, 데이터 양이 증가하면서 여러 문제가 발생한다. 데이터 세트 관리, 새로운 애플리케이션 간의 데이터 통합, 데이터 라이선스 준수 확인, 데이터 품질 유지 등의 작업은 데이터 규모가 커질수록 더욱 복잡해진다. 특히 대규모 파운데이션 모델은 공개된 웹에서 스크랩한 데이터를 주로 사용하기 때문에 이러한 문제가 더욱 심화된다. 파운데이션 모델에는 검색 엔진 데이터 및 SEO 메타 태그 데이터도 포함된다. 공개 웹 데이터는 풍부한 정보원이지만, 모델 개발자는 이를 훈련 과정에 효과적으로 통합하기 위해 엄격한 조정과 데이터 처리 과정을 거쳐야 한다.^[37]

파운데이션 모델 훈련 과정에서는 개인 정보가 의도치 않게 공개되거나 수집 목적 외로 사용될 위험이 있어 사용자 프라이버시 침해 가능성이 제기된다. 개인 데이터가 직접 유출되지 않더라도, 모델이 학습한 내용을 바탕으로 한 동작이 예기치 않은 보안 위협을 초래할 수도 있다.^[38] 데이터 품질 역시 중요한 문제이다. 웹에서 스크랩한 데이터는 편향되거나 중복되고, 유해한 내용을 포함하는 경우가 많기 때문이다. 모델이 배포된 이후에도 소규모 데이터 세트에서 예상치 못한 문제가 발생할 수 있어, 고품질 데이터 확보는 지속적인 과제로 남아있다.

5. 4. 시스템

파운데이션 모델의 큰 규모는 이를 실행하는 컴퓨터 시스템에도 부담을 준다. 일반적인 파운데이션 모델은 단일 가속기의 메모리 용량을 초과하는 경우가 많으며, 초기 학습 과정에는 막대한 양의 컴퓨팅 자원이 필요하다.^[39] 이러한 문제는 모델의 크기가 계속 커짐에 따라 앞으로 더욱 심화될 것으로 예상된다. 이러한 제약으로 인해 연구자들은 모델 압축 등 모델 크기를 줄이는 방법을 모색하고 있다.

GPU는 높은 메모리 용량과 강력한 연산 성능 덕분에 기계 학습 분야에서 가장 널리 사용되는 컴퓨팅 하드웨어이다. 파운데이션 모델을 학습시키려면 일반적으로 많은 수의 GPU가 필요하며, 이 GPU들은 빠른 상호 연결 기술을 통해 병렬로 연결되어야 한다. 하지만 필요한 만큼의 고성능 GPU를 확보하는 것은 많은 모델 개발자들에게 어려운 과제이며, 이는 컴퓨팅 성능과 효율성 사이의 딜레마로 이어진다. 더 큰 모델은 더 높은 컴퓨팅 성능을 요구하지만, 종종 효율성이 떨어지는 문제가 발생한다. 학습에는 여전히 많은 시간과 비용이 소요되므로, 컴퓨팅 성능과 효율성 사이의 균형을 맞추는 것은 소수의 대기업만이 최첨단 대규모 파운데이션 모델 개발 비용을 감당할 수 있게 만들었다. 모델 압축이나 지식 증류와 같은 기술이 모델 추론 비용을 절감하는 데 도움을 줄 수는 있지만, 근본적인 시스템 요구 사항의 부담을 완전히 해결하지는 못한다.

5. 5. 스케일링

파운데이션 모델의 정확도와 성능은 모델의 크기와 학습 데이터의 양에 따라 예측 가능하게 확장되는 경우가 많다. 자원(데이터, 모델 크기, 컴퓨팅 사용량)과 모델 성능 사이의 관계를 나타내는 경험적인 경향인 스케일링 법칙이 발견되었다. 특히, 모델의 스케일은 컴퓨팅, 데이터 세트 크기, 파라미터 수로 정의되며, 이들은 모두 최종 성능과 멱함수 관계를 나타낸다.

그러나 이러한 관계가 특정 지점에서 다른 지수로 부드럽게 전환되는 깨진 스케일링 법칙^[40]이 발견되기도 했다. 이 전환 지점을 브레이크(break)라고 부른다. 브레이크 지점 근처 또는 그 이후의 데이터를 충분히 확보하지 않으면 정확한 성능 예측(외삽)이 어려울 수 있다.

5. 6. 적응

파운데이션 모델은 본질적으로 다양한 목적에 활용될 수 있도록 설계되었지만, 특정 사용 사례에 적용하기 위해서는 일종의 적응 과정이 필요하다. 최소한 모델이 목표하는 특정 작업을 수행할 수 있도록 적응시키는 것(작업 명세)이 기본이며, 나아가 관심 있는 특정 도메인에 더 폭넓게 적응시킴으로써 성능을 향상시킬 수 있다(도메인 전문화).

모델을 적응시키는 방법에는 여러 가지가 있으며, 각 방법은 적응에 드는 비용과 모델이 특정 분야에 얼마나 전문화되는지 사이에서 서로 다른 장단점을 가진다. 대표적인 방법으로는 프롬프트, 맥락 내 학습, 미세 조정, LoRA 등이 있다.

파운데이션 모델을 적응시킬 때 중요하게 고려해야 할 요소는 컴퓨팅 예산과 데이터 가용성이다. 파운데이션 모델은 그 규모가 매우 커서 수조 개의 매개변수를 가질 수도 있기 때문에, 모델 전체를 적응시키는 데에는 상당한 계산 비용이 발생할 수 있다. 이러한 이유로 개발자들은 시간과 비용을 절약하기 위해 신경망의 마지막 계층이나 편향(bias) 벡터 등 모델의 일부만을 적응시키는 방법을 사용하기도 한다.^[41]

또한, 특히 전문화된 응용 분야의 경우, 모델을 충분히 적응시키는 데 필요한 특정 데이터를 구하기 어려울 수 있다. 이런 상황에서는 데이터를 직접 수작업으로 레이블링해야 하는데, 이는 비용이 많이 들고 해당 분야 전문가의 지식이 필요할 수 있는 작업이다.

기반 모델은 매우 방대한 일반 데이터셋으로 사전 훈련되기 때문에, 특정 "개별화된" 개념, 예를 들어 특정 인물, 장소, 물체 등에 대해서는 잘 알지 못하는 경우가 많다. 모델 전체를 다시 훈련하지 않고도 이러한 개별화된 항목을 기반 모델에 추가하여 활용할 수 있게 하는 다양한 기법들이 개발되었다. 예를 들어, 소수 샷 이미지 검색(few-shot image retrieval) 분야에서는 시각-언어 기반 모델인 CLIP의 어휘에 새로운 개념을 추가하여 적응시키는 방법이 제안되었다.^[72] 마찬가지로, 텍스트-이미지 생성에서는, '텍스트 반전'(textual inversion)이라고 불리는 접근법으로 시스템에 새로운 개념을 가르쳐 기존 개념과 조합하여 생성할 수 있도록 한다^[73]。

5. 7. 평가

평가는 파운데이션 모델 개발에서 핵심적인 부분이다. 평가는 고성능 모델의 발전을 추적할 수 있게 할 뿐만 아니라, 미래 모델 개발을 위한 벤치마크를 생성한다. 이해관계자들은 모델의 동작을 이해하고 다양한 속성에 대한 통찰력을 얻기 위해 평가에 의존한다. 전통적으로, 파운데이션 모델은 MMLU^[42], MMMU^[43], HumanEval^[44] 및 GSM8K^[45]와 같은 표준화된 작업 벤치마크를 통해 서로 비교 평가된다. 파운데이션 모델이 다목적이라는 점을 감안하여, 다양한 기본 벤치마크를 집계하는 메타 벤치마크가 점점 더 많이 개발되고 있다. 예시로는 LM-Harness^[46], BIG-Bench^[47], HELM^[48], OpenLLM 리더보드^[49], DecodingTrust^[50] 및 HEIM^[51] 등이 있다.

파운데이션 모델의 유용성은 자체적인 일반적인 능력과 미세 조정된 애플리케이션의 성능에 따라 달라지므로, 평가는 두 가지 지표를 모두 다루어야 한다. 적절한 평가는 파운데이션 모델의 다운스트림 애플리케이션을 종합적으로 검토하고, 파운데이션 모델이 직접적으로 갖는 속성을 모두 검토한다. 평가의 형평성을 더욱 보장하기 위해, 특정 기존 평가 프레임워크는 모든 적응 자원을 고려하여 모든 이해관계자에게 이로운 더 정보에 입각한 분석을 가능하게 한다.^[52]

6. 공급망

파운데이션 모델의 일반적인 기능은 AI 생태계에서 고유한 역할을 수행할 수 있게 해주며,^[53] 이는 많은 상위 및 하위 기술에 의해 뒷받침된다.^[1] 파운데이션 모델을 훈련하기 위해서는 데이터, 컴퓨팅(계산 능력), 노동력, 하드웨어, 코드 등 다양한 자원이 필요하며, 특히 방대한 양의 데이터와 컴퓨팅 자원이 요구된다. 개발 비용은 막대하지만 일단 개발되면 비교적 저렴하게 적용할 수 있다는 특징 때문에, 소수의 AI 기업이 파운데이션 모델을 개발하고 이를 기반으로 하위 애플리케이션이 만들어지는 구조로 AI 환경이 변화하고 있다.^[54] 이러한 이유로 대부분의 파운데이션 모델 개발자는 데이터 제공 단계를 전문 데이터 제공업체(예: Scale AI,^[55] Surge^[56])에, 컴퓨팅 자원 확보는 컴퓨팅 제공업체(예: 아마존 웹 서비스, 구글 클라우드, 마이크로소프트 애저)에 아웃소싱하는 경우가 많다.

파운데이션 모델 개발자 자신이 데이터를 가져와 제공된 컴퓨팅을 사용하여 실제로 파운데이션 모델을 훈련한다. 파운데이션 모델이 완전히 구축된 후에는 데이터 및 노동력 요구 사항의 대부분이 감소한다. 이 개발 과정에서 하드웨어와 컴퓨팅이 가장 필요하며 가장 독점적인 리소스이기도 하다. 더 크고 복잡한 AI를 훈련하려면 충분한 컴퓨팅 능력이 중요하다. 그러나 컴퓨팅은 소수의 선택된 주체에게 집중되어 있으며, 대부분의 파운데이션 모델 개발자가 이에 의존한다. 따라서 파운데이션 모델 파이프라인은 이러한 제공업체를 중심으로 매우 집중되어 있다. 컴퓨팅 비용도 많이 든다. 2023년 AI 기업은 총 자본의 80% 이상을 컴퓨팅 리소스에 지출했다.^[58]

파운데이션 모델은 기능을 강화하기 위해 많은 양의 일반 데이터를 필요로 한다. 초기 파운데이션 모델은 이 데이터 정보를 제공하기 위해 인터넷의 하위 집합에서 데이터를 수집했다. 파운데이션 모델의 규모와 범위가 커짐에 따라 더 많은 양의 인터넷 스크래핑이 필요해지면서 편향되거나 유해한 데이터가 발생할 가능성이 높아졌다. 이러한 유해하거나 편향된 데이터는 소외된 집단에 불균형적으로 해를 끼치고 기존의 편견을 악화시킬 수 있다.^[59]

이러한 비지도 학습으로 인해 발생한 저품질 데이터 문제를 해결하기 위해 일부 파운데이션 모델 개발자는 수동 필터링으로 전환했다. 데이터 노동이라고 알려진 이 관행은 자체적인 문제점을 안고 있다.^[60] 이러한 수동 데이터 해독은 종종 노동 비용을 줄이기 위해 아웃소싱되며, 일부 작업자는 시간당 2USD 미만을 받는다.^[61]

그런 다음 파운데이션 모델은 개발자 또는 외부 조직을 통해 온라인으로 호스팅된다. 일단 출시되면 다른 당사자는 파인 튜닝을 통해 또는 완전히 새로운 목적으로 파운데이션 모델을 기반으로 애플리케이션을 만들 수 있다. 그런 다음 사람들은 이러한 애플리케이션에 액세스하여 다양한 수단을 제공할 수 있으며, 이를 통해 하나의 파운데이션 모델이 광범위한 고객에게 힘을 실어주고 도달할 수 있다.

7. 출시 전략

파운데이션 모델이 완성되면 다양한 방식으로 출시될 수 있다. 모델 출시에는 모델 자체, 접근 권한을 가진 사람, 시간이 지남에 따라 접근 권한이 변경되는 방식, 사용 조건 등 여러 측면이 포함된다.^[62] 이러한 요소들은 파운데이션 모델이 이후 개발되는 응용 프로그램(다운스트림 애플리케이션)에 어떤 영향을 미칠지 결정하는 데 기여한다.^[63] 파운데이션 모델의 출시는 주로 API를 통한 방식과 모델을 직접 다운로드하는 방식, 이 두 가지 형태로 이루어진다.

모델이 API를 통해 출시될 경우, 사용자는 모델에 질문(쿼리)을 보내 답변을 받을 수 있지만, 모델 자체에는 직접 접근할 수 없다. 반면, 모델을 직접 다운로드할 수 있게 출시하면 사용자가 모델에 직접 접근하여 수정하는 것이 가능하다. 이 두 가지 출시 전략 모두 '공개 출시'로 분류되는 경우가 많다. 공개 출시의 정확한 정의는 논의의 여지가 있지만, 오픈 소스 이니셔티브가 널리 받아들여지는 기준을 제시하고 있다.

공개된 파운데이션 모델의 예로는 PaLM 2, Llama 2, Granite, Mistral 등이 있다. 공개 파운데이션 모델은 연구와 개발을 더 쉽게 만든다는 장점이 있지만, 잘못 사용될 위험(오용)에 더 취약하다는 단점도 있다. 공개 모델은 누구나 다운로드할 수 있기 때문에, 특히 성능이 뛰어난 모델은 의도적이든 아니든 해로운 목적으로 미세 조정될 가능성이 있다.

비공개 출시의 경우, 파운데이션 모델은 일반 대중이 접근할 수 없으며, 해당 조직 내부에서만 사용된다. 이러한 방식은 보안 측면에서는 더 안전하다고 여겨지지만, 연구 커뮤니티나 일반 대중에게는 추가적인 가치를 제공하기 어렵다는 한계가 있다.

출시 방식은 다양하게 나타난다. Google DeepMind의 Flamingo^[64]와 같은 일부 모델은 완전히 비공개되어 모델 개발자만 사용할 수 있다. 반면, OpenAI의 GPT-4와 같은 모델은 제한된 접근 방식을 채택하여, 내부 구조를 알 수 없는 블랙 박스 형태로 대중에게 공개된다. 또 다른 예로, Meta의 Llama 2와 같은 모델은 모델의 가중치(데이터 학습 결과)를 광범위하게 공개하여, 사용자들이 이를 기반으로 자유롭게 수정하고 검토할 수 있도록 한다.

8. 개별화된 기반 모델

기반 모델은 방대한 데이터 세트로 사전에 훈련되어 특정 "개별화된" 개념을 다루지 못한다. 모델 전체를 재훈련하지 않고 개별화된 항목으로 기반 모델을 보강하는 다양한 기법이 고안되었다. 예를 들어, 소수 샷 이미지 검색에서는 시각 언어 기반 모델(CLIP)의 어휘에 새로운 개념을 추가하여 적응하는 방법이 제시되었다.^[72]

텍스트 이미지 생성에서는, 마찬가지로 텍스트 반전이라고 불리는 접근법으로 시스템에 새로운 개념을 가르쳐 기존 개념과 조합하여 생성할 수 있도록 한다.^[73]

9. 기회와 위험

2021년 arXiv 보고서는 파운데이션 모델이 가진 "언어, 자격, 로봇 공학, 추론, 인간과의 대화" 능력과 함께 법률, 의료, 교육 등 다양한 분야에서의 응용 가능성을 언급하였다. 또한 "모델 아키텍처, 훈련 절차, 데이터, 시스템, 보안, 평가, 이론"과 같은 기술적 원칙들도 다루었다.^[69]

그러나 동시에 해당 보고서는 파운데이션 모델이 사회에 미칠 수 있는 잠재적 영향에 대해서도 지적했는데, 특히 "불공정, 오용, 경제적·환경적 영향, 법률적·윤리적 고찰"과 같은 문제들을 우려 사항으로 제시했다.^[69] 이코노미스트지 역시 파운데이션 모델 관련 기사에서 "경제적·정치적 권력의 추가적인 집중화에 대한 우려"를 제기하며 비슷한 맥락의 비판적 시각을 드러냈다.^[74]

참조

_[1] 간행물 AI Foundation Models: Initial Report https://assets.publi[...] Competition and Markets Authority 2023
_[2] 논문 The AI Index 2023 Annual Report AI Index Steering Committee, Institute for Human-Centered AI, Stanford University 2023-04
_[3] arXiv A Primer in BERTology: What we know about how BERT works
_[4] 웹사이트 How does GPT-4 work and how can you start using it in ChatGPT? https://www.aljazeer[...] 2024-10-20
_[5] 웹사이트 Tackling multiple tasks with a single visual language model https://www.deepmind[...] 2022-06-13
_[6] arXiv Simple and Controllable Music Generation 2023-11-07
_[7] 웹사이트 Speaking robot: Our new AI model translates vision and language into robotic actions https://blog.google/[...] 2023-07-28
_[8] arXiv AstroLLaMA: Towards Specialized Foundation Models in Astronomy 2023-09-12
_[9] arXiv Towards Generalist Biomedical AI 2023-07-26
_[10] bioRxiv GenSLMs: Genome-scale language models reveal SARS-CoV-2 evolutionary dynamics 2022-10-11
_[11] 웹사이트 LLark: A Multimodal Foundation Model for Music https://research.ats[...] 2023-10-13
_[12] arXiv StarCoder: may the source be with you! 2023-05-09
_[13] 웹사이트 Revolutionizing Time Series Forecasting: Interview with TimeGPT's creators https://www.turingpo[...] 2024-04-05
_[14] arXiv Llemma: An Open Language Model For Mathematics 2023-11-30
_[15] 웹사이트 Orbital https://www.orbitalm[...]
_[16] 웹사이트 Introducing the Center for Research on Foundation Models (CRFM) https://hai.stanford[...] 2021-08-18
_[17] 보고서 On the Opportunities and Risks of Foundation Models 2021-08-18
_[18] 웹사이트 Reflections on Foundation Models https://hai.stanford[...] 2021-10-18
_[19] 웹사이트 Reflections on Foundation Models https://crfm.stanfor[...] 2021-10-18
_[20] 웹사이트 Has AI found a new Foundation? https://thegradient.[...] 2021-09-11
_[21] 웹사이트 Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence https://www.whitehou[...] 2023-10-30
_[22] 웹사이트 AI Foundation Model Transparency Act https://beyer.house.[...]
_[23] 간행물 Holistic Evaluation of Language Models 2023-10-01
_[24] 웹사이트 Joint Statement on AI Safety and Openness https://open.mozilla[...] 2023-10-31
_[25] 웹사이트 Hawley and Blumenthal Demand Answers from Meta, Warn of Misuse After 'Leak' of Meta's AI Model https://www.hawley.s[...] 2023-06-06
_[26] arXiv Frontier AI Regulation: Managing Emerging Risks to Public Safety 2023-11-07
_[27] 저널 Large language models encode clinical knowledge 2023-08
_[28] arXiv Capabilities of GPT-4 on Medical Challenge Problems 2023-04-12
_[29] 저널 Access to A.I. Justice: Avoiding an Inequitable Two-Tiered System of Legal Services https://ssrn.com/abs[...] 2022-04-22
_[30] 저널 Contracts in the Age of Smart Readers https://scholarship.[...] 2020
_[31] 웹사이트 General-purpose artificial intelligence {{!}} Think Tank {{!}} European Parliament https://www.europarl[...] 2024-02-12
_[32] arXiv Ecosystem Graphs: The Social Footprint of Foundation Models 2023-03-28
_[33] arXiv The Foundation Model Transparency Index 2023-10-19
_[34] 저널 A Mathematical Theory of Communication https://people.math.[...] 1948-07
_[35] arXiv Learning Transferable Visual Models From Natural Language Supervision 2021-02-26
_[36] 논문 Scaling Laws for Neural Language Models 2020-01-22
_[37] 서적 Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency 2020-01-27
_[38] 서적 Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency Association for Computing Machinery 2021-03-01
_[39] 논문 Language Models are Few-Shot Learners 2020-07-22
_[40] 논문 "Broken Neural Scaling Laws" 2022
_[41] 논문 BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models 2022-09-05
_[42] 웹사이트 Papers with Code - MMLU Benchmark (Multi-task Language Understanding) https://paperswithco[...] 2024-04-21
_[43] 논문 MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI 2023-12-20
_[44] 웹사이트 Papers with Code - HumanEval Benchmark (Code Generation) https://paperswithco[...] 2024-04-21
_[45] 웹사이트 Papers with Code - GSM8K Benchmark (Arithmetic Reasoning) https://paperswithco[...] 2024-04-21
_[46] 간행물 EleutherAI/lm-evaluation-harness https://github.com/E[...] EleutherAI 2024-04-21
_[47] 논문 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models 2023-06-12
_[48] 웹사이트 Holistic Evaluation of Language Models (HELM) https://crfm.stanfor[...] 2024-04-21
_[49] 웹사이트 open-llm-leaderboard (Open LLM Leaderboard) https://huggingface.[...] 2024-04-21
_[50] 웹사이트 DecodingTrust Benchmark https://decodingtrus[...] 2024-04-21
_[51] 웹사이트 Holistic Evaluation of Image Models (HEIM) https://crfm.stanfor[...] 2024-04-21
_[52] 학술지 How Can We Accelerate Progress Towards Human-like Linguistic Generalization? https://aclanthology[...] Association for Computational Linguistics 2020-07
_[53] 웹사이트 Ecosystem Graphs for Foundation Models https://crfm.stanfor[...] 2024-02-13
_[54] 논문 Market Concentration Implications of Foundation Models 2023-11-02
_[55] 웹사이트 Accelerate the Development of AI Applications {{!}} Scale AI https://scale.com/ 2024-04-21
_[56] 웹사이트 Surge AI {{!}} World's Most Powerful Data Labeling Platform https://www.surgehq.[...] 2024-04-21
_[57] 웹사이트 2024 AI Index - chapter 1 https://aiindex.stan[...] 2024-04-15
_[58] 웹사이트 Computational Power and AI https://ainowinstitu[...] 2024-02-13
_[59] 뉴스 These fake images reveal how AI amplifies our worst stereotypes https://www.washingt[...] 2024-02-13
_[60] 웹사이트 How the AI industry profits from catastrophe https://www.technolo[...] 2024-02-13
_[61] 잡지 Exclusive: The $2 Per Hour Workers Who Made ChatGPT Safer https://time.com/624[...] 2024-02-13
_[62] 웹사이트 The Time is Now to Develop Community Norms for the Release of Foundation Models https://crfm.stanfor[...] 2022-05-17
_[63] 논문 The Gradient of Generative AI Release: Methods and Considerations 2023-02-05
_[64] 논문 Flamingo: a Visual Language Model for Few-Shot Learning 2022-11-15
_[65] 웹사이트 Introducing the Center for Research on Foundation Models (CRFM) https://hai.stanford[...] 2022-06-11
_[66] 웹사이트 Foundation models: 2022's AI paradigm shift https://venturebeat.[...] 2022-10-24
_[67] 논문 A Primer in BERTology: What we know about how BERT works
_[68] 학술지 Language models are an effective representation learning technique for electronic health record data 2021-01
_[69] 논문 On the Opportunities and Risks of Foundation Models 2022-07-12
_[70] 웹사이트 Reflections on Foundation Models https://hai.stanford[...] 2023-05-22
_[71] 웹사이트 Gemini - Google DeepMind https://deepmind.goo[...] 2023-12-09
_[72] 간행물 '"This Is My Unicorn, Fluffy": Personalizing Frozen Vision-Language Representations' https://doi.org/10.1[...] Springer-Verlag 2022-10-23
_[73] 간행물 An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion https://arxiv.org/ab[...] 2022-08-02
_[74] 뉴스 Huge "foundation models" are turbo-charging AI progress https://www.economis[...] 2022-10-24
_[75] 문서 AI Foundation Models: Initial Report https://assets.publi[...] Competition and Markets Authority 2023
_[76] 웹인용 Introducing the Center for Research on Foundation Models (CRFM) https://hai.stanford[...] 2021-08-18
_[77] 문서 The AI Index 2023 Annual Report AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA 2023-04
_[78] ArXiv 인용 A Primer in BERTology: What we know about how BERT works
_[79] 인용 Tackling multiple tasks with a single visual language model https://www.deepmind[...] 2022-04-28
_[80] ArXiv 인용 Simple and Controllable Music Generation 2023-11-07
_[81] 웹인용 Speaking robot: Our new AI model translates vision and language into robotic actions https://blog.google/[...] 2023-12-11
_[82] ArXiv 인용 AstroLLaMA: Towards Specialized Foundation Models in Astronomy 2023-09-12
_[83] ArXiv 인용 Towards Generalist Biomedical AI 2023-07-26
_[84] cite bioRxiv GenSLMs: Genome-scale language models reveal SARS-CoV-2 evolutionary dynamics 2022-10-11
_[85] 웹인용 LLark: A Multimodal Foundation Model for Music https://research.ats[...] 2023-12-11
_[86] ArXiv 인용 StarCoder: may the source be with you! 2023-05-09
_[87] 웹인용 Revolutionizing Time Series Forecasting: Interview with TimeGPT's creators https://www.turingpo[...] 2024-04-11
_[88] ArXiv 인용 Llemma: An Open Language Model For Mathematics 2023-11-30

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

파운데이션 모델
개요
파운데이션 모델 패러다임의 삽화
유형	인공지능 모델
정의	대량의 데이터로 학습되어 다양한 다운스트림 작업에 적용될 수 있는 인공지능 모델
특징	대규모 데이터 학습 다양한 작업에 적용 가능 사전 훈련 후 미세 조정
역사 및 배경
초기 모델	Word2Vec GloVe BERT
발전	더 큰 데이터셋과 모델 크기 활용
주요 모델	GPT-3 LaMDA PaLM LLaMA
특징
자기 지도 학습	레이블이 없는 데이터 사용
전이 학습	한 작업에서 학습된 지식을 다른 작업에 적용
창발적 능력	훈련 데이터에서 명시적으로 학습되지 않은 새로운 능력
제로샷 학습	추가적인 훈련 없이 새로운 작업 수행
응용 분야
자연어 처리	텍스트 생성 기계 번역 질의 응답
컴퓨터 비전	이미지 인식 객체 탐지 이미지 생성
음성 인식	음성 텍스트 변환 화자 인식
로보틱스	작업 수행을 위한 시각 및 언어 정보 번역
과학	천문학 생물학 화학 재료 과학
음악	음악 생성 및 편집
시계열 예측	미래 값 예측
예시
언어 모델	GPT-4 LLaMA StarCoder Llemma
시각 언어 모델	Flamingo RT-2
음악 모델	Jukebox LLM 음악
과학 모델	AstroLLaMA GenSLMs Orbital (AI) BioMedLM TimeGPT
과제 및 한계
편향성	훈련 데이터에 존재하는 편향 반영 가능성
투명성 부족	의사 결정 과정의 이해 어려움
계산 비용	훈련 및 실행에 많은 계산 자원 필요
윤리적 문제	오용 및 악용 가능성
연구 및 개발
주요 연구 기관	CRFM (Foundation Model 연구 센터)
같이 보기
관련 개념	전이 학습 자기 지도 학습 대규모 언어 모델 멀티모달 학습 반지도 학습

국가/기관	정의 요약	주요 특징
미국 (행정명령 14110)	광범위한 데이터로 훈련되고(자기 지도 학습 방식 주로 사용), 최소 수백억 개의 매개변수를 가지며, 다양한 맥락에 적용될 수 있는 AI 모델^[21]	매개변수 규모 명시 (수백억 개 이상)
미국 (하원 법안^[22]) (돈 베이어, 안나 에슈 발의)	광범위한 데이터로 훈련되고(자기 지도 학습 방식 주로 사용), 최소 10억 개의 매개변수를 가지며, 다양한 맥락에 적용 가능하고, 안보, 경제, 공중 보건 등에 심각한 위험을 초래할 수 있는 작업에서 높은 성능을 보이거나 보일 수 있는 AI 모델	매개변수 규모 명시 (10억 개 이상), 잠재적 위험성 및 고성능 조건 포함
유럽 연합 (인공지능법 협상안)	대규모의 광범위한 데이터로 훈련되고, 일반적인(general purpose) 출력을 위해 설계되었으며, 다양한 고유 작업에 적용될 수 있는 AI 모델	일반적 출력 목적 명시
영국 (경쟁 및 시장청 보고서^[1])	방대한 양의 데이터로 훈련되어 광범위한 작업 및 운영에 적용될 수 있는 AI 기술 유형	비교적 포괄적인 정의