GPT (언어 모델)

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
3. 기초 모델
4. 작업 특화 모델
5. 윤리적 문제 및 논란
참조

1. 개요

GPT(Generative Pre-trained Transformer)는 2018년 OpenAI에 의해 개발된 대규모 언어 모델로, 텍스트를 생성하고 이해하는 데 사용된다. GPT는 트랜스포머 아키텍처를 기반으로 하며, 방대한 양의 텍스트 데이터를 사전 학습하여 다양한 자연어 처리 작업에 활용될 수 있다. GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4 등의 버전이 있으며, 특히 GPT-3는 1,750억 개의 매개변수를 통해 인간과 유사한 텍스트 생성 능력을 보여주었다. GPT 모델은 챗봇, 프로그래밍, 특정 도메인에 특화된 모델 등 다양한 형태로 활용되며, 윤리적 문제와 한국 사회에 미치는 영향에 대한 논의도 이루어지고 있다.

더 읽어볼만한 페이지

대형 언어 모델 - 챗GPT
챗GPT는 오픈AI가 개발한 GPT-3.5 기반의 대화형 인공지능 서비스로, 인간과 유사한 텍스트 생성, 코드 생성, 보고서 작성, 번역 등의 다양한 기능을 제공하지만, 편향된 정보 생성, 데이터 유출, 윤리 및 저작권 문제 등의 논란도 있으며, 유료 서비스를 포함한 다양한 형태로 제공되고, 지속적인 모델 개발을 통해 성능을 향상시키고 있다.
대형 언어 모델 - GPT-3
GPT-3는 OpenAI가 개발한 1,750억 개의 매개변수를 가진 대규모 언어 모델로, 텍스트 생성, 코드 작성, 질문 응답 등 다양한 작업을 수행할 수 있지만, 윤리적 문제점과 사회적 비판도 존재한다.
오픈AI - 챗GPT
챗GPT는 오픈AI가 개발한 GPT-3.5 기반의 대화형 인공지능 서비스로, 인간과 유사한 텍스트 생성, 코드 생성, 보고서 작성, 번역 등의 다양한 기능을 제공하지만, 편향된 정보 생성, 데이터 유출, 윤리 및 저작권 문제 등의 논란도 있으며, 유료 서비스를 포함한 다양한 형태로 제공되고, 지속적인 모델 개발을 통해 성능을 향상시키고 있다.
오픈AI - GPT-3
GPT-3는 OpenAI가 개발한 1,750억 개의 매개변수를 가진 대규모 언어 모델로, 텍스트 생성, 코드 작성, 질문 응답 등 다양한 작업을 수행할 수 있지만, 윤리적 문제점과 사회적 비판도 존재한다.
MIT 라이선스 소프트웨어 - MS-DOS
MS-DOS는 마이크로소프트가 개발한 개인용 컴퓨터용 디스크 운영 체제로, IBM PC의 표준 운영 체제로 널리 사용되었으며, 단일 작업 환경과 명령줄 인터페이스를 특징으로 한다.
MIT 라이선스 소프트웨어 - Zcash
Zcash는 존스 홉킨스 대학교 연구를 기반으로 개발된 익명성 강화 암호화폐로, zk-SNARK 영지식 증명을 통해 거래 당사자의 익명성을 보장하지만, 범죄 악용 우려와 규제 대상 가능성이 존재한다.

2. 역사

생성형 사전 훈련(Generative pre-training, GP)은 기계 학습 응용 프로그램에서 오랫동안 확립된 개념이었지만,^[127]^[128] 2017년 구글에서 변환기 아키텍처를 발명하기 전까지는 널리 사용되지 못했다.^[129] 이러한 개발로 인해 2018년에는 BERT^[130], 2019년에는 XLNet^[131]과 같은 대규모 언어 모델이 등장했다. 이들은 사전 훈련된 변환기(PT)였지만 생성하도록 설계되지는 않았다("인코더 전용").^[132] 2018년, OpenAI는 "생성적 사전 훈련에 의한 언어 이해 개선"이라는 제목의 기사를 발표하여 최초의 사전 훈련된 생성 변환기(GPT) 시스템을 도입했다.^[133]

변환기 기반 아키텍처 이전에는 최고 성능의 신경 자연어 처리(NLP) 모델은 일반적으로 대량의 수동 레이블 지정 데이터에서 지도 학습을 사용했다. 지도 학습에 대한 의존도는 잘 주석이 없는 데이터 세트에 대한 사용을 제한했으며, 또한 매우 큰 언어 모델을 교육하는 데 엄청난 비용과 시간이 소요되었다.^[133]

OpenAI는 대규모 생성 시스템을 만들기 위해 준지도 학습 접근 방식(처음에는 변환기 모델과 관련됨)을 채택했다. 이 방식은 언어 모델링 목표를 사용하여 초기 매개변수를 설정하는 감독되지 않은 생성 "사전 훈련" 단계와, 이러한 매개변수를 대상 작업에 적용하기 위해 감독된 차별적 "미세 조정" 단계로 구성된다.^[133]

GPT 모델의 발전 과정은 다음과 같다.

2. 1. 초기 개발 (GPT-1)

2018년 6월 11일, OpenAI는 "생성적 사전 훈련을 통한 언어 이해도 향상"이라는 논문을 발표하며 GPT-1을 공개했다.^[103] GPT-1은 트랜스포머(딥 러닝 아키텍처) 아키텍처를 기반으로 한 최초의 생성형 사전 훈련 변환기(GPT) 시스템이었다.^[28]

당시 최고의 성능을 내던 자연어 처리 모델들은 대부분 대량의 수동으로 레이블링된 데이터에서 지도 학습 방식을 사용했다. 그러나 이러한 방식은 레이블이 없는 데이터 세트에는 적용하기 어려웠고, 매우 큰 언어 모델을 훈련하는 데 막대한 비용과 시간이 소요된다는 단점이 있었다.^[103]^[104] 특히, 스와힐리어나 아이티 크리올어와 같이 코퍼스를 구축할 텍스트가 부족한 언어는 번역이나 해석에 어려움이 있었다.^[104]

GPT-1은 이러한 문제를 해결하기 위해 준지도 학습 방식을 채택했다. 이 방식은 비지도 학습 생성 모델 "사전 훈련" 단계와 지도 학습 판별 모델 "미세 조정(기계 학습)" 단계로 구성된다.^[103] 먼저, 레이블이 없는 대량의 텍스트 데이터(BookCorpus^[105])를 사용하여 언어 모델링 목표로 초기 매개변수를 설정하는 사전 훈련을 진행한다. 그 후, 특정 작업에 맞게 레이블이 지정된 데이터로 미세 조정을 수행하여 대상 작업에 적합한 모델을 만든다.^[103]

GPT-1의 훈련에는 NVIDIA Quadro P600 8장을 30일간 사용했으며, 실행 효율 33%로 0.96 페타FLOPS・일이 소요되었다.^[106]

2. 2. GPT-2

2019년 2월, OpenAI는 GPT-1보다 10배 이상 많은 매개변수를 가진 GPT-2를 발표했다.^[39] GPT-2는 15억 개의 매개변수를 가지고 있으며, WebText라는 40GB의 텍스트 데이터로 훈련되었다. WebText는 Reddit에서 추천된 4,500만 개의 웹페이지에서 추출한 800만 개의 문서로 구성되어 있다.^[39]

GPT-2는 GPT-1과 유사하지만, 정규화 방식이 수정되었다.^[39] 텍스트 생성 능력이 크게 향상되어, 이전 모델들보다 훨씬 자연스럽고 일관성 있는 문장을 생성할 수 있게 되었다.

OpenAI는 GPT-2의 악용 가능성을 우려하여 초기에는 제한된 버전만 공개했다. 그러나 2019년 11월 5일, 전체 버전을 공개했다.^[39] 훈련 비용은 "수십 페타플롭/s-day" 또는 1.5e21 FLOP로 추정된다.^[42]^[40]

2. 3. GPT-3

GPT-3는 2020년 5월 OpenAI에서 발표한 1,750억 개의 매개변수를 가진 언어 모델이다.^[41] 이전 모델들보다 훨씬 큰 규모의 데이터(Common Crawl, WebText, Wikipedia 등)를 사용하여 훈련되었다.^[42] GPT-3는 사람과 구별하기 어려울 정도의 자연스러운 텍스트 생성 능력을 보여주었으며, 별도의 미세 조정 없이도 다양한 자연어 처리 작업을 수행할 수 있는 "퓨샷 학습(few-shot learning)" 능력을 입증했다.

2. 4. InstructGPT와 ChatGPT

2022년 1월, OpenAI는 사용자의 지시를 더 잘 따르도록 미세 조정된 InstructGPT 모델을 발표했다.^[138]^[139] InstructGPT는 기본 GPT-3 언어 모델에서 감독 교육과 인간 피드백으로부터 강화 학습(RLHF)을 조합하여 훈련되었다.^[138]^[139] 이는 기본적인 기본 모델에 비해 더 높은 정확도, 부정적인/독성 감정이 적고 일반적으로 사용자 요구에 더 잘 부합하는 이점이 있다.^[140]

2022년 11월, OpenAI는 InstructGPT를 기반으로 한 대화형 인공지능 모델인 ChatGPT를 공개했다.^[143] ChatGPT는 RLHF를 사용하여 훈련되었으며, 인간 AI 트레이너가 사용자와 AI 역할을 모두 수행하는 대화를 제공하고, 이 새로운 대화 데이터 세트를 InstructGPT 데이터 세트와 혼합하여 챗봇에 적합한 대화 형식을 만들었다.^[143] ChatGPT는 인간 사용자와의 대화형 상호 작용을 위해 추가로 훈련되었다.^[33]^[34]

2. 5. GPT-4

OpenAI의 최신 GPT 기초 모델인 GPT-4는 2023년 3월 14일에 출시되었다.^[116] GPT-4는 텍스트뿐만 아니라 이미지도 입력으로 받아들일 수 있는 멀티모달(multimodal) 모델이다.^[116] ChatGPT의 프리미엄 버전을 통해 사용자가 직접 접근할 수 있으며, OpenAI의 API를 통해 다른 제품 및 서비스에 통합할 수 있도록 개발자에게 제공된다.

OpenAI는 GPT-4가 텍스트 예측과 인간 피드백 기반 강화 학습(RLHF)을 통해 훈련되었다는 사실 외에 아키텍처, 파라미터 수, 훈련 데이터 등 상세 내용은 공개하지 않았다.^[117]

3. 기초 모델

생성형 사전 훈련(Generative pre-training, GP)은 기계 학습 응용 프로그램에서 오랫동안 확립된 개념이었지만,^[127]^[128] 2017년 구글이 변환기(Transformer) 아키텍처를 발명하기 전까지는 널리 사용되지 않았다.^[129] 이러한 개발로 인해 2018년에는 BERT,^[130] 2019년에는 XLNet과 같은^[131] 대규모 언어 모델이 등장했다. 이들은 사전 훈련된 변환기(PT)였지만 생성하도록 설계되지 않았다("인코더 전용").^[132] 2018년, OpenAI는 "생성적 사전 훈련에 의한 언어 이해 개선"이라는 논문을 발표하여 최초의 사전 훈련된 생성 변환기(GPT) 시스템을 도입했다.^[133]

변환기 기반 아키텍처 이전에는 최고 성능의 신경 NLP(자연어 처리) 모델은 일반적으로 대량의 수동 레이블 지정 데이터에서 지도 학습을 사용했다. 감독 학습에 대한 의존도는 잘 주석이 없는 데이터 세트에 대한 사용을 제한했으며, 매우 큰 언어 모델을 교육하는 데 엄청난 비용과 시간이 소요되었다.^[133]

OpenAI는 대규모 생성 시스템을 만들기 위해 준지도 학습 접근 방식을 채택했다. 여기에는 언어 모델링 목표를 사용하여 초기 매개변수를 설정하는 비지도 생성 "사전 훈련" 단계와 이러한 매개변수를 대상 작업에 적용하기 위해 감독된 차별적 "미세 조정" 단계가 포함된다.^[133]

파운데이션 모델은 광범위한 데이터로 대규모로 훈련되어 광범위한 다운스트림 작업에 적용할 수 있는 AI 모델이다.^[35]^[36]

지금까지 가장 주목할만한 GPT 파운데이션 모델은 OpenAI의 ''GPT-n'' 시리즈였다. 그중 가장 최근의 모델은 GPT-4인데, OpenAI는 규모나 훈련 세부 사항을 공개하지 않았다.^[43]

이러한 다른 모델로는 Google의 PaLM, Together의 '''GPT-JT''', Meta AI의 LLaMA 등이 있다.

파운데이션 GPT는 텍스트 외의 다른 모달리티를 사용할 수도 있다. GPT-4는 텍스트와 이미지 입력을 처리할 수 있는 멀티 모달 LLM(출력은 텍스트로 제한됨)이다.^[49] 멀티 모달 ''출력''과 관련하여, 일부 생성형 트랜스포머 기반 모델은 텍스트-이미지 기술에 사용된다. 이러한 종류의 모델은 이미지를 사용할 수 있는 다운스트림 시스템 개발을 위한 '''시각적 파운데이션 모델'''(VFMs) 역할을 할 수 있다.^[52]

4. 작업 특화 모델

기본 GPT 모델은 특정 작업 및 주제 영역을 대상으로 하는 더 특화된 시스템을 생성하도록 추가 조정될 수 있다. 이러한 조정 방법에는 추가적인 미세 조정(기본 모델을 위해 수행된 것 이상)뿐만 아니라 특정 형태의 프롬프트 엔지니어링이 포함될 수 있다.^[137]

이러한 작업 특화 모델의 중요한 예로는 지침을 따르도록 모델을 미세 조정하는 것이 있다. 이는 매우 광범위한 작업이지만 기본 모델보다는 더 구체적이다. 또 다른 예로는 인간과 유사한 대화를 나누는 챗봇이 있다.

GPT가 사용될 수 있는 또 다른 종류의 작업은 인간 사용자가 제공한 보다 일반적인 목표를 달성하기 위해 '자신'에 대한 일련의 프롬프트를 개발하는 것과 같이 '자신'의 지침을 생성하는 메타 작업이다.^[146] 이것은 AI 에이전트로 알려져 있으며, 특히 이전 자체 지침의 결과를 사용하여 후속 프롬프트를 형성하는 데 도움이 되므로 재귀적 에이전트이다. 이의 첫 번째 주요 예는 Auto-GPT(OpenAI의 GPT 모델 사용)였으며, 그 이후 다른 에이전트도 개발되었다.^[147]

GPT는 아래 표와 같이 프로그래밍, 대화, 특정 도메인(금융, 의료, 교육) 등의 작업에 특화된 모델로 사용될 수 있다.

4. 1. InstructGPT

OpenAI는 2022년 1월, 기본 GPT-3 언어 모델에서 지도 학습과 인간 피드백으로부터의 강화 학습(RLHF)을 결합하여 지침을 따르도록 미세 조정된 일련의 모델인 "InstructGPT"를 도입했다.^[138]^[139] InstructGPT는 기본적인 GPT-3 모델에 비해 정확도가 높고, 부정적이거나 유해한 표현을 덜 생성하며, 전반적으로 사용자의 요구에 더 잘 부합하는 장점을 보였다.^[140] 이러한 장점 덕분에 OpenAI는 InstructGPT를 API 서비스 제공의 기반으로 사용하기 시작했다.^[140]

4. 2. ChatGPT

ChatGPT는 OpenAI가 2022년 11월에 출시한 온라인 채팅 인터페이스로, InstructGPT와 유사한 방식으로 훈련된 지침 튜닝 언어 모델로 구동된다.^[143] ChatGPT는 인간 AI 트레이너가 사용자와 AI 역할을 모두 수행하는 대화를 제공하고, 이 새로운 대화 데이터 세트를 챗봇에 적합한 대화 형식으로 InstructGPT 데이터 세트와 혼합하는 인간 피드백으로부터의 강화 학습(RLHF) 방식으로 훈련되었다.^[143]

ChatGPT는 GPT-3.5를 기반으로 교사 학습과 RLHF를 통한 전이 학습 방식으로 미세 조정되었다.^[115]

4. 3. Codex

OpenAI Codex는 GPT-3를 프로그래밍 용도로 조정한 모델이다.^[109] 2021년 8월 10일에 출시되었다.^[109] Codex는 GitHub의 코드를 사용하여 미세 조정되었으며, 자연어 코드를 생성하거나 코드를 설명하는 데 사용될 수 있다.

4. 4. 도메인 특화 모델

GPT 모델은 특정 도메인(예: 금융, 의료, 교육)에 맞게 미세 조정될 수 있다. 다음은 몇 가지 예시이다.

이 외에도, 여러 회사들이 OpenAI의 ChatGPT 인터페이스와 직접 상호 작용하는 특정 플러그인을 개발했으며,^[70]^[71] Google Workspace는 Google Sheets에서 스프레드시트 기능 사용을 돕는 "GPT for Sheets and Docs"와 같은 애드온을 사용할 수 있다.^[72]^[73]

2023년 11월, OpenAI는 ChatGPT Plus 구독자가 특정 도메인에 맞게 조정할 수 있는 "맞춤형 ChatGPT 버전"('GPT'라고 함)을 만들 수 있도록 지원한다고 발표했다.^[74]

5. 윤리적 문제 및 논란

GPT 모델은 텍스트 생성 능력이 뛰어나지만, 가짜 뉴스 생성, 혐오 표현, 편향된 정보 생성 등 윤리적 문제를 야기할 수 있다. 특히 GPT-3는 그 규모와 성능으로 인해 이러한 문제가 더욱 심각해질 수 있다는 우려가 제기되었다. OpenAI는 이러한 문제를 해결하기 위해 노력하고 있으며, GPT 모델의 안전한 사용을 위한 가이드라인을 제시하고 있다.

참조

_[1] 웹사이트 How does GPT-4 work and how can you start using it in ChatGPT? https://www.aljazeer[...]
_[2] 웹사이트 Generative AI and Future https://pub.towardsa[...] 2022-11-15
_[3] 웹사이트 CSDL | IEEE Computer Society https://www.computer[...]
_[4] 웹사이트 LibGuides: Using AI Language Models : ChatGPT https://hallmark.lib[...]
_[5] 웹사이트 Generative AI: a game-changer society needs to be ready for https://www.weforum.[...] 2023-01-09
_[6] 간행물 The A to Z of Artificial Intelligence https://time.com/627[...] 2023-04-13
_[7] 웹사이트 The Next Generation Of Large Language Models https://www.forbes.c[...]
_[8] 웹사이트 Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests https://www.forbes.c[...] 2023-03-13
_[9] 웹사이트 GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared https://www.makeuseo[...] 2023-04-11
_[10] 웹사이트 GPT-4 https://openai.com/r[...] 2023-12-08
_[11] 웹사이트 EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J https://www.infoq.co[...] 2021-07-13
_[12] 간행물 News https://www.business[...]
_[13] 웹사이트 Salesforce launches EinsteinGPT built with OpenAI technology https://techmonitor.[...] 2023-03-07
_[14] 웹사이트 The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech https://www.forbes.c[...]
_[15] 논문 Deep neural networks for acoustic modeling in speech recognition http://cs224d.stanfo[...] 2012-10-15
_[16] 논문 A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core Cambridge.org 2014-01-22
_[17] 논문 Why Does Unsupervised Pre-training Help Deep Learning? https://proceedings.[...] JMLR Workshop and Conference Proceedings 2010-03-31
_[18] 웹사이트 First-Hand:The Hidden Markov Model – Engineering and Technology History Wiki http://ethw.org/Firs[...] 2018-05-01
_[19] 논문 Hidden Markov Models for Speech Recognition https://www.jstor.or[...] 1991
_[20] 논문 Learning Internal Representation From Gray-Scale Images: An Example of Extensional Programming https://escholarship[...] 1987
_[21] 서적 Extracting features from faces using compression networks: Face, identity, emotion, and gender recognition using holons https://www.scienced[...] Morgan Kaufmann 2024-10-04
_[22] 논문 Learning complex, extended sequences using the principle of history compression https://gwern.net/do[...]
_[23] 논문 Learning the hidden structure of speech https://pubs.aip.org[...] 1988-04-01
_[24] 논문 Auto-association by multilayer perceptrons and singular value decomposition http://infoscience.e[...] 1988
_[25] 논문 Autoencoders, Minimum Description Length and Helmholtz Free Energy https://proceedings.[...] Morgan-Kaufmann 1993
_[26] 논문 Attention is All you Need https://proceedings.[...] Curran Associates, Inc. 2017
_[27] 논문 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2019-05-24
_[28] 웹사이트 Improving Language Understanding by Generative Pre-Training https://cdn.openai.c[...] OpenAI 2021-01-23
_[29] 논문 Learning to Generate Reviews and Discovering Sentiment 2017-04-06
_[30] 논문 Evaluating Large Language Models Trained on Code 2021-07-01
_[31] 논문 Training language models to follow instructions with human feedback https://proceedings.[...] 2022-12-06
_[32] 웹사이트 New GPT-3 capabilities: Edit & insert https://openai.com/b[...] 2023-06-24
_[33] 논문 How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources https://yaofu.notion[...]
_[34] 웹사이트 Model index for researchers https://platform.ope[...] 2023-06-23
_[35] 웹사이트 Introducing the Center for Research on Foundation Models (CRFM) https://hai.stanford[...] 2021-08-18
_[36] 웹사이트 Reflections on Foundation Models https://hai.stanford[...] 2021-10-18
_[37] 간행물 Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books https://www.cv-found[...] 2015
_[38] 웹사이트 Improving language understanding with unsupervised learning https://openai.com/r[...] 2018-06-11
_[39] 웹사이트 OpenAI has published the text-generating AI it said was too dangerous to share https://www.theverge[...] 2019-11-07
_[40] 웹사이트 ML input trends visualization https://epochai.org/[...] 2023-05-02
_[41] 웹사이트 ChatGPT Statistics https://www.namepepp[...] 2023-06-01
_[42] 학술지 Language Models are Few-Shot Learners 2020-05-28
_[43] 웹사이트 GPT-4 Technical Report https://cdn.openai.c[...] 2023
_[44] 뉴스 GPT-4 has more than a trillion parameters – Report https://the-decoder.[...] 2023-03-25
_[45] 웹사이트 Google opens up its AI language model PaLM to challenge OpenAI and GPT-3 https://www.theverge[...] 2023-03-14
_[46] 웹사이트 Google Opens Access to PaLM Language Model https://aibusiness.c[...]
_[47] 웹사이트 Meet GPT-JT, the Closest Open Source Alternative to GPT-3 https://analyticsind[...] 2022-11-30
_[48] 웹사이트 Meta Debuts AI Language Model, But It's Only for Researchers https://www.pcmag.co[...]
_[49] 웹사이트 Multimodal Language Models: The Future of Artificial Intelligence (AI) https://www.marktech[...] 2023-03-27
_[50] 웹사이트 How Do DALL·E 2, Stable Diffusion, and Midjourney Work? https://www.marktech[...] 2022-11-14
_[51] 웹사이트 Google Launches Muse, A New Text-to-Image Transformer Model https://analyticsind[...] 2023-01-04
_[52] arXiv Visual ChatGPT 2023-03-08
_[53] arXiv On the Opportunities and Risks of Foundation Models 2022-07-12
_[54] 웹사이트 OpenAI dumps its own GPT-3 for something called InstructGPT, and for right reason https://analyticsind[...] 2022-01-28
_[55] 웹사이트 Stanford CRFM https://crfm.stanfor[...]
_[56] 웹사이트 Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM https://www.databric[...] 2023-04-12
_[57] 웹사이트 Microsoft doubles down on AI with new Bing features https://techcrunch.c[...] 2023-05-04
_[58] 웹사이트 ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful? https://www.cnet.com[...]
_[59] 웹사이트 Auto-GPT, BabyAGI, and AgentGPT: How to use AI agents https://mashable.com[...] 2023-04-19
_[60] 웹사이트 Auto-GPT May Be The Strong AI Tool That Surpasses ChatGPT https://www.forbes.c[...]
_[61] 웹사이트 Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT https://www.infoq.co[...]
_[62] 웹사이트 Microsoft's new AI can simulate anyone's voice with 3 seconds of audio https://arstechnica.[...] 2023-01-09
_[63] 웹사이트 Salesforce launches EinsteinGPT built with OpenAI technology https://techmonitor.[...] 2023-03-07
_[64] 학술지 The role of generative pretrained transformers (GPTs) in revolutionising digital marketing: A conceptual model https://ideas.repec.[...]
_[65] 웹사이트 Bloomberg plans to integrate GPT-style A.I. into its terminal https://www.cnbc.com[...] 2023-04-13
_[66] 뉴스 Learning nonprofit Khan Academy is piloting a version of GPT called Khanmigo https://www.fastcomp[...] 2023-05-22
_[67] 웹사이트 Khan Academy Pilots GPT-4 Powered Tool Khanmigo for Teachers https://thejournal.c[...]
_[68] 웹사이트 Slack GPT will bring AI chatbots to your conversations https://www.pcworld.[...] 2023-05-04
_[69] 학술지 BioGPT: Generative pre-trained transformer for biomedical text generation and mining 2023-04-03
_[70] 웹사이트 Know about ChatGPT's 13 best plugins, designed to improve your overall user experience https://wire19.com/c[...] 2023-05-05
_[71] 웹사이트 ChatGPT plugins https://openai.com/b[...]
_[72] 웹사이트 How to Use ChatGPT on Google Sheets With GPT for Sheets and Docs https://www.makeuseo[...] 2023-03-12
_[73] 웹사이트 Embrace and extend Excel for AI data prep https://www.infoworl[...] 2023-02-27
_[74] 웹사이트 OpenAI GPTS 2023-11-10
_[75] 웹사이트 ChatGPT creator OpenAI is asking startups to remove 'GPT' from their names https://www.bizjourn[...] 2023-05-10
_[76] 웹사이트 Brand Guidelines https://openai.com/b[...] 2023-04-24
_[77] 웹사이트 Brand guidelines https://openai.com/b[...]
_[78] 웹사이트 Introducing GPTS https://openai.com/b[...]
_[79] 뉴스 OpenAI Unsuccessful At Speeding Up Its Attempt To Trademark 'GPT' https://designtaxi.c[...] 2023-04-26
_[80] 웹사이트 NONFINAL OFFICE ACTION https://tsdr.uspto.g[...] 2023-05-25
_[81] 웹사이트 U.S. Trademark Law https://digital.gov/[...] 2015-12
_[82] 웹사이트 International Trademark Rights https://www.inta.org[...]
_[83] 웹사이트 OpenAI Wants to Trademark 'GPT' Amid Rise of AI Chatbots https://www.techtime[...] Tech Times 2023-04-25
_[84] 웹사이트 OpenAI files a UDRP case against the current owner of ChatGPT.com https://techstartups[...] 2023-04-03
_[85] 웹사이트 OpenAI's Battle for Brand Protection: Can GPT be trademarked? https://www.lexology[...] 2023-04-26
_[86] 웹사이트 ChatGPT vs. GPT: How are they different? {{!}} TechTarget https://www.techtarg[...] 2023-04-20
_[87] 웹사이트 GPT-4 vs. ChatGPT: AI Chatbot Comparison https://www.eweek.co[...] 2023-04-12
_[88] 뉴스 The Genesis of Generative AI for Everything Everywhere All at Once in CRE https://commercialob[...] 2023-08-22
_[89] 웹사이트 Trademark infringement https://www.law.corn[...]
_[90] 웹사이트 Branding 101: trademark descriptive fair use https://www.lexology[...] 2013-08-16
_[91] 간행물 finetune-transformer-lm https://github.com/o[...] OpenAI 2018-06-11
_[92] 웹사이트 GPT-2: 1.5B release https://openai.com/r[...]
_[93] arXiv Release Strategies and the Social Impacts of Language Models 2019-11-12
_[94] 간행물 gpt-2 https://github.com/o[...] OpenAI 2023-05-01
_[95] 웹사이트 WebGPT: Improving the factual accuracy of language models through web browsing https://openai.com/r[...]
_[96] journal WebGPT: Browser-assisted question-answering with human feedback https://ui.adsabs.ha[...] 2021-12-01
_[97] 웹사이트 GPT-4 https://openai.com/r[...]
_[98] arXiv GPT-4 Technical Report 2023-03-27
_[99] arXiv Sparks of Artificial General Intelligence: Early experiments with GPT-4 2023-04-13
_[100] 문서 GPT-4 System Card https://cdn.openai.c[...] OpenAI 2023-03-23
_[101] 웹사이트 Hello GPT-4o https://openai.com/i[...] 2024-05-13
_[102] 서적 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発オライリー・ジャパン 2022-08-03
_[103] 웹사이트 Improving Language Understanding by Generative Pre-Training https://cdn.openai.c[...] OpenAI 2018-06-11
_[104] 웹사이트 Opportunities and Challenges in Working with Low-Resource Languages https://www.cs.cmu.e[...] Carnegie Mellon University 2017-06-22
_[105] journal Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books https://www.cv-found[...] 2015
_[106] 웹사이트 Improving language understanding with unsupervised learning https://openai.com/r[...] 2023-03-18
_[107] 저널 Training language models to follow instructions with human feedback https://arxiv.org/ab[...] 2022-03-04
_[108] 웹사이트 Improving language understanding with unsupervised learning https://openai.com/r[...] 2023-03-18
_[109] 웹사이트 OpenAI Codex https://openai.com/b[...] 2023-05-05
_[110] 웹사이트 Aligning language models to follow instructions https://openai.com/r[...] 2023-03-23
_[111] 저널 ProtGPT2 is a deep unsupervised language model for protein design. 2022-07-27
_[112] 저널 BioGPT: generative pre-trained transformer for biomedical text generation and mining. https://www.ncbi.nlm[...] 2022-09-24
_[113] 웹사이트 BioGPT is a Microsoft language model trained for biomedical tasks https://the-decoder.[...] 2023-01-29
_[114] 웹사이트 Introducing ChatGPT https://openai.com/b[...] 2023-03-16
_[115] 서적 Dive into deep learning: tools for engagement https://d2l.ai/chapt[...] 2023-01-10
_[116] 문서 テキストと画像の両方を入力として受け付ける。
_[117] 웹사이트 GPT-4 Technical Report https://cdn.openai.c[...] 2023-03-18
_[118] 웹인용 Improving language understanding with unsupervised learning https://openai.com/r[...] 2023-03-18
_[119] 웹인용 How does GPT-4 work and how can you start using it in ChatGPT? https://www.aljazeer[...]
_[120] 웹인용 Generative AI: a game-changer society needs to be ready for https://www.weforum.[...]
_[121] 웹인용 The A to Z of Artificial Intelligence https://time.com/627[...] 2023-04-13
_[122] 웹인용 The Next Generation Of Large Language Models https://www.forbes.c[...]
_[123] 웹사이트 Most Jobs Soon To Be Influenced By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests https://www.forbes.c[...]
_[124] 간행물 News https://www.business[...]
_[125] 웹인용 Salesforce launches EinsteinGPT built with OpenAI technology https://techmonitor.[...] 2023-03-07
_[126] 웹인용 The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech https://www.forbes.c[...]
_[127] 저널 Deep neural networks for acoustic modeling in speech recognition http://cs224d.stanfo[...] 2012-10-15
_[128] 웹인용 A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core https://www.cambridg[...] Cambridge.org 2023-05-21
_[129] 저널 Attention Is All You Need http://arxiv.org/abs[...] 2017-12-05
_[130] 저널 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding http://arxiv.org/abs[...] 2019-05-24
_[131] 저널 XLNet https://proceedings.[...] 2019
_[132] 웹인용 Google Introduces New Architecture To Reduce Cost Of Transformers https://analyticsind[...] 2021-09-23
_[133] 웹인용 Improving Language Understanding by Generative Pre-Training https://cdn.openai.c[...] OpenAI 2021-01-23
_[134] 콘퍼런스 Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books https://www.cv-found[...] 2023-02-07
_[135] 저널 Language Models are Few-Shot Learners http://arxiv.org/abs[...] 2020-07-22
_[136] 웹사이트 GPT-4 Technical Report https://cdn.openai.c[...] 2023
_[137] 저널 On the Opportunities and Risks of Foundation Models https://arxiv.org/pd[...] 2022-07-12
_[138] 웹사이트 Aligning language models to follow instructions https://openai.com/r[...] 2023-03-23
_[139] 저널 Training language models to follow instructions with human feedback 2022-03-04
_[140] 웹인용 OpenAI dumps its own GPT-3 for something called InstructGPT, and for right reason https://analyticsind[...] 2022-01-28
_[141] 웹인용 Stanford CRFM https://crfm.stanfor[...]
_[142] 웹인용 Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM https://www.databric[...] 2023-04-12
_[143] 웹인용 Introducing ChatGPT https://openai.com/b[...] 2023-03-16
_[144] 웹인용 Microsoft doubles down on AI with new Bing features https://techcrunch.c[...] 2023-05-04
_[145] 웹인용 ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful? https://www.cnet.com[...]
_[146] 웹인용 Auto-GPT, BabyAGI, and AgentGPT: How to use AI agents https://mashable.com[...] 2023-04-19
_[147] 웹인용 Auto-GPT May Be The Strong AI Tool That Surpasses ChatGPT https://www.forbes.c[...]

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

GPT (언어 모델)
개요
유형	대규모 언어 모델
모델 종류	생성 AI
사용처	자연어 처리
기반	트랜스포머 아키텍처
학습 방법	자기 지도 학습
기술적 세부 사항
주요 특징	텍스트 생성, 번역, 질문 응답 등 다양한 자연어 처리 작업 수행
학습 데이터	대량의 텍스트 데이터
파라미터 수	수십억 개에서 수조 개
활용 분야
콘텐츠 생성	기사 작성 시나리오 창작 소설 쓰기
챗봇	고객 지원 정보 제공
번역	다국어 번역 지원
검색 엔진	검색 결과 요약 및 개선
소프트웨어 개발	코드 생성 및 디버깅 지원
금융	금융 데이터 분석 및 예측
모델 종류
OpenAI	GPT-1 GPT-2 GPT-3 GPT-4
기타	GPT-J (EleutherAI) BloombergGPT (Bloomberg) EinsteinGPT (Salesforce) KoGPT HyperCLOVA Cerebras-GPT
관련 기술
자연어 처리	자연어 처리
기계 학습	기계 학습
딥 러닝	딥 러닝
인공 신경망	인공 신경망
트랜스포머	트랜스포머
자기 지도 학습	자기 지도 학습

모델	아키텍처	파라미터 수	훈련 데이터	출시일
GPT-1	12레벨, 12방향 변환기 디코더 (인코더 없음). linear-softmax를 따름.	117,000,000	BookCorpus:^[134] 4.5 GB의 본문 (다양한 장르의 7,000권의 미출판 책에서)	2018년 6월 11일^[118]
GPT-2	GPT-1 (수정된 노멀라이제이션 포함)	1,500,000,000	웹 텍스트: 40 GB 본문, 800만 개 문서 (레딧의 좋아요 버튼이 눌린 45,000,000개의 웹 페이지에서)	2019년 2월 14일
GPT-3	GPT-2 (더 큰 스케일링을 허용하기 위한 수정 포함)	175,000,000,000	570 GB 플레인텍스트, 0.4 trillion개의 토큰. 대부분 CommonCrawl, WebText, 영어 위키백과, 2권의 책 말뭉치 (Books1 및 Books2).	2020년 6월 11일^[135] (2022년 3월 15일에 판의 이름이 GPT-3.5로 명명됨)
GPT-4	텍스트 예측과 RLHF로 훈련됨. 텍스트와 이미지를 입력으로 받음. 추가 정보는 공개되지 않음.^[136]	미공개	미공개	2023년 3월 14일

모델	아키텍처	파라미터 수	훈련 데이터	출시일	훈련 비용
GPT-1	12 레벨, 12 헤드 트랜스포머 디코더(인코더 없음), 선형-소프트맥스	1억 1700만 개	BookCorpus:^[37] 4.5GB 텍스트, 다양한 장르의 미출판 도서 7000권	2018년 6월 11일^[38]	8개의 P600 GPU에서 30일, 또는 1페타FLOP/s-day.^[38]
GPT-2	GPT-1, 단 정규화 수정	15억 개	WebText: 40GB 텍스트, 800만 개 문서, Reddit에서 추천된 4500만 개 웹페이지	2019년 2월 14일 (초기/제한 버전) 2019년 11월 5일 (전체 버전)^[39]	"수십 페타플롭/s-day",^[42] 또는 1.5e21 FLOP.^[40]
GPT-3	GPT-2, 단 더 큰 확장을 허용하도록 수정	1750억 개^[41]	CommonCrawl (570GB), WebText, 영어 위키백과 및 두 권의 책 모음(Books1 및 Books2)으로 구성된 4990억 개의 토큰	2020년 5월 28일^[42]	3640 페타플롭/s-day (표 D.1^[42]), 또는 3.1e23 FLOP.^[40]
GPT-3.5	미공개	1750억 개^[41]	미공개	2022년 3월 15일	미공개
GPT-4	텍스트 예측과 RLHF로도 훈련됨; 텍스트와 이미지 입력을 모두 허용함. 더 자세한 내용은 공개되지 않음.^[43]	미공개. 추정 1.7조 개.^[44]	미공개	2023년 3월 14일	미공개. 추정 2.1 × 10²⁵ FLOP.^[40]

이름	용도	아키텍처	파라미터 수	훈련 데이터	출시일
InstructGPT	대화	GPT-3를 인간의 피드백에 따른 지침을 따르도록 미세 조정^[110]	비공개	비공개	2022년 3월 4일
ChatGPT	대화	GPT-3.5를 사용하고, 교사 학습과 강화 학습(RLHF) 모두로 미세 조정됨(전이 학습 접근 방식)^[115]	비공개	비공개	2022년 11월 30일

모델	아키텍처	파라미터 수	훈련 데이터	출시일	훈련 비용
GPT-1	12 레벨, 12 헤드 트랜스포머 디코더(인코더 없음), 선형-소프트맥스	1억 1700만 개	BookCorpus:^[37] 4.5GB 텍스트, 다양한 장르의 미출판 도서 7000권	2018년 6월 11일^[38]	8개의 P600 GPU에서 30일, 또는 1페타FLOP/s-day.^[38]
GPT-2	GPT-1, 단 정규화 수정	15억 개	WebText: 40GB 텍스트, 800만 개 문서, Reddit에서 추천된 4500만 개 웹페이지	2019년 2월 14일 (초기/제한 버전) 및 2019년 11월 5일 (전체 버전)^[39]	"수십 페타플롭/s-day",^[42] 또는 1.5e21 FLOP.^[40]
GPT-3	GPT-2, 단 더 큰 확장을 허용하도록 수정	1750억 개^[41]	CommonCrawl (570GB), WebText, 영어 위키백과 및 두 권의 책 모음(Books1 및 Books2)으로 구성된 4990억 개의 토큰	2020년 5월 28일^[42]	3640 페타플롭/s-day (표 D.1^[42]), 또는 3.1e23 FLOP.^[40]
GPT-3.5	미공개	1750억 개^[41]	미공개	2022년 3월 15일	미공개
GPT-4	텍스트 예측과 RLHF로도 훈련됨; 텍스트와 이미지 입력을 모두 허용함. 더 자세한 내용은 공개되지 않음.^[43]	미공개. 추정 1.7조 개.^[44]	미공개	2023년 3월 14일	미공개. 추정 2.1 × 10²⁵ FLOP.^[40]

이름	용도	아키텍처	파라미터 수	훈련 데이터	출시일
Codex	프로그래밍	GPT-3를 프로그래밍 용도로 조정			2021년 8월 10일^[109]
InstructGPT	대화	GPT-3를 인간의 피드백에 따른 지침을 따르도록 미세 조정			2022년 3월 4일^[110]
ChatGPT	대화	GPT-3.5를 사용하고, 교사 학습과 RLHF 모두로 미세 조정(전이 학습 접근 방식)	비공개	비공개	2022년 11월 30일^[115]
아인슈타인GPT(EinsteinGPT)	영업 및 마케팅, 고객 관계 관리(CRM) 지원	GPT-3.5 사용	비공개	비공개	비공개^[63]^[64]
블룸버그GPT(BloombergGPT)	금융 뉴스 및 정보 지원	자체 데이터와 결합된 "자유롭게 사용 가능한" AI 방법 사용	비공개	비공개	비공개^[65]
칸미고(Khanmigo)	칸 아카데미를 통한 학습 안내 (튜터링, 교육 도메인)	GPT-4로 구동	비공개	비공개	비공개^[66]^[67]
슬랙GPT(SlackGPT)	슬랙 인스턴트 메시징 서비스에서 토론 탐색 및 요약 지원	OpenAI의 API 사용	비공개	비공개	비공개^[68]
바이오GPT(BioGPT)	생물의학 문헌 텍스트 생성 및 마이닝 지원 (생물의학 도메인)	GPT-2 사용	3억 4700만	PubMed의 비어 있지 않은 항목(총 150만)	비공개^[69]
ProtGPT2	단백질 배열	GPT-2 large(36층)와 유사	7억 3800만	UniRef50의 단백질 배열(총 4488만, 검증을 위해 10% 사용)	비공개^[111]

이름	용도	아키텍처	파라미터 수	훈련 데이터	출시일
아인슈타인GPT(EinsteinGPT)	영업 및 마케팅, 고객 관계 관리(CRM) 지원	GPT-3.5 사용^[63]^[64]	비공개	비공개	비공개
블룸버그GPT(BloombergGPT)	금융 뉴스 및 정보 지원	자체 데이터와 결합된 "자유롭게 사용 가능한" AI 방법 사용^[65]	비공개	비공개	비공개
칸미고(Khanmigo)	칸 아카데미를 통한 학습 안내 (튜터링, 교육 도메인)	GPT-4로 구동^[66]^[67]	비공개	비공개	비공개
슬랙GPT(SlackGPT)	슬랙 인스턴트 메시징 서비스에서 토론 탐색 및 요약 지원	OpenAI의 API 사용^[68]	비공개	비공개	비공개
바이오GPT(BioGPT)	생물의학 문헌 텍스트 생성 및 마이닝 지원 (생물의학 도메인)	GPT-2 사용^[69]	3억 4700만	PubMed의 비어 있지 않은 항목(총 150만)	비공개
ProtGPT2	단백질 배열^[111]	GPT-2 large(36층)와 유사	7억 3800만	UniRef50의 단백질 배열(총 4488만, 검증을 위해 10% 사용)	비공개