LLaMA

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 배경
3. 아키텍처 및 훈련
- 3.1. 미세 조정 (Fine-tuning)
4. 출시 및 유출
5. LLaMA 버전별 특징
6. 모델 비교
7. 응용
8. 군사적 이용
9. 평가
참조

1. 개요

LLaMA는 메타에서 개발한 대규모 언어 모델 시리즈이다. 2018년 이후 언어 모델링의 표준 아키텍처인 트랜스포머 아키텍처를 기반으로 하며, 훈련 데이터의 양을 늘리는 데 중점을 두어 성능을 향상시켰다. LLaMA 1은 오픈 소스 라이선스로 공개되었지만, 모델 가중치에 대한 접근은 제한적으로 이루어졌다. LLaMA 2는 상업적 사용이 가능한 모델로 공개되었으며, 70억, 130억, 700억 개의 매개변수를 가진 모델이 출시되었다. 2024년에는 LLaMA 3가 발표되었으며, 80억 개와 700억 개의 매개변수를 가진 두 가지 버전이 공개되었다. LLaMA는 다양한 응용 분야에서 활용되고 있으며, 군사적 이용에 대한 우려와 함께 모델의 안전성과 오픈소스 라이선스에 대한 논쟁이 있다.

더 읽어볼만한 페이지

대형 언어 모델 - 챗GPT
챗GPT는 오픈AI가 개발한 GPT-3.5 기반의 대화형 인공지능 서비스로, 인간과 유사한 텍스트 생성, 코드 생성, 보고서 작성, 번역 등의 다양한 기능을 제공하지만, 편향된 정보 생성, 데이터 유출, 윤리 및 저작권 문제 등의 논란도 있으며, 유료 서비스를 포함한 다양한 형태로 제공되고, 지속적인 모델 개발을 통해 성능을 향상시키고 있다.
대형 언어 모델 - GPT-3
GPT-3는 OpenAI가 개발한 1,750억 개의 매개변수를 가진 대규모 언어 모델로, 텍스트 생성, 코드 작성, 질문 응답 등 다양한 작업을 수행할 수 있지만, 윤리적 문제점과 사회적 비판도 존재한다.

2. 배경

GPT-3와 같은 대규모 언어 모델이 출시된 후, 연구는 모델 확장에 초점을 맞추었고, 일부 경우에는 새로운 기능이 크게 향상되는 것을 보여주었다.^[7] 챗GPT의 출시와 예상치 못한 성공은 대규모 언어 모델에 대한 관심을 증폭시켰다.^[8]

메타의 수석 AI 과학자 얀 르쿤은 챗GPT에 대한 다른 반응과 비교하여, 대규모 언어 모델이 글쓰기를 돕는 데 가장 적합하다고 말했다.^[9]^[10]^[11]^[12]

LLaMA(라마) 시리즈에 대한 실증적 조사는 스케일링 법칙이었다. LLaMA 3 모델은 "친칠라-최적" 양보다 많은 데이터로 훈련된 모델의 경우 성능이 로그 선형적으로 계속 확장되는 것을 보여주었다. 예를 들어, LLaMA 3 8B에 대한 친칠라-최적 데이터셋은 2000억 토큰이지만, 성능은 15조 토큰의 75배 더 큰 데이터셋까지 로그 선형적으로 계속 확장되었다.^[24]

3. 아키텍처 및 훈련

LLaMA는 2018년 이후 언어 모델링의 표준 아키텍처인 트랜스포머 아키텍처를 기반으로 한다. GPT-3와 유사하지만, 성능 향상을 위해 다음과 같은 개선 사항이 적용되었다.^[37]^[38]^[39]^[40]

GeLU 대신 SwiGLU 활성화 함수 사용
절대 위치 임베딩 대신 회전 위치 임베딩(RoPE) 사용
층 정규화 대신 RMSNorm 사용

LLaMA 개발자들은 모델의 성능을 높이기 위해 매개변수 크기보다 훈련 데이터 양을 늘리는 데 집중했다. 이는 훈련된 모델을 사용하는 데 드는 비용이 모델 훈련 비용보다 더 크다고 판단했기 때문이다.

LLaMA 1은 다음과 같은 공개 데이터 소스에서 가져온 1.4조 토큰의 데이터 세트로 훈련되었다.

커먼크롤(CommonCrawl)에서 수집한 웹페이지
깃허브(GitHub)의 오픈소스 소스 코드 저장소
20개 언어의 위키피디아(Wikipedia)
프로젝트 구텐베르크(Project Gutenberg)의 퍼블릭 도메인(Public domain) 도서
Books3 도서 데이터 세트
아카이브(ArXiv)에 업로드된 과학 논문의 LaTeX 소스 코드
스택 익스체인지(Stack Exchange) 웹사이트의 질문과 답변

2023년 4월 17일, TogetherAI는 LLaMA 데이터 세트의 오픈소스(open source) 버전을 재현하고 배포하는 RedPajama라는 프로젝트를 시작했다. 이 데이터 세트는 약 1.2조 토큰으로 구성되며 공개적으로 다운로드할 수 있다.

Llama 2는 2조 토큰의 데이터 세트로 훈련되었다. 이 데이터 세트는 개인 정보를 자주 공개하는 웹사이트를 제거하고 신뢰할 수 있는 소스의 샘플 비율을 높이도록 큐레이션되었다.^[19]

Llama 3는 주로 영어 데이터로 구성되며, 30개 이상의 다른 언어로 된 데이터가 5% 이상 포함되어 있다. 해당 데이터 세트는 텍스트 품질 분류기를 사용하여 필터링되었으며, 분류기는 Llama 2에 의해 합성된 텍스트로 훈련되었다.^[24]

3. 1. 미세 조정 (Fine-tuning)

LLaMA 1은 미세 조정 없이 기본 모델로만 제공된다. LLaMA 2 채팅 모델은 기본 LLaMA 2 모델에서 파생되었다. 미세 조정 과정에서 GPT-4와는 달리, LLaMA 2 및 코드 LLaMA 채팅 모델은 4,000토큰의 동일한 문맥 길이를 갖는다. 지도 학습 미세 조정은 사용자 프롬프트에서 토큰 손실을 제거한 자기회귀 손실 함수를 사용했으며, 배치 크기는 64였다.^[1]

AI 정렬을 위해, 인간 주석자는 프롬프트를 작성한 다음 두 모델의 출력을 비교(이진 프로토콜)하여 신뢰 수준과 거부권이 있는 별도의 안전성 레이블을 제공했다. 인간 피드백으로부터의 강화 학습(RLHF)을 사용하여 안전성과 유용성에 대한 두 가지 별도의 보상 모델을 이러한 선호도로부터 훈련했다. 주요 기술적 기여는 RLHF에 대한 근접 정책 최적화(PPO)의 독점적 사용에서 벗어나, 새로운 기각 샘플링 기반 기술을 사용한 후 PPO를 사용한 것이다.^[1]

대화의 여러 회차 일관성을 개선하여 "시스템 메시지"(프랑스어로 말하기, 나폴레옹처럼 행동하기 등의 초기 지침)가 대화 중에 준수되도록 했다. 이는 훈련 중 새로운 "고스트 어텐션" 기술을 사용하여 달성되었는데, 이 기술은 각 새로운 사용자 메시지에 관련 지침을 연결하지만 프롬프트(대화의 이전 부분)의 토큰에 대한 손실 함수는 제거한다.^[1]

4. 출시 및 유출

LLaMA는 2023년 2월 23일 블로그 게시물과 논문을 통해 발표되었다.^[70]^[71] 모델 훈련에 사용된 코드는 오픈 소스 GPL 3 라이선스에 따라 공개되었다.^[73] 모델 가중치는 신청 절차를 통해 학술 연구원, 정부, 시민 사회 및 학계 기관, 산업 연구소 등에 사례별로 접근 권한이 부여되었다.^[71]

2023년 3월 2일, LLaMA의 가중치가 담긴 토렌트가 4chan에 유출되었다.^[72] 유출에 대한 반응은 다양했다. 일각에서는 악용 가능성을 우려했지만, 다른 일각에서는 접근성 증가와 추가 연구 개발 촉진을 기대했다.^[72] LLaMA 유출은 스테이블 디퓨전과 비교되기도 한다.^[72]^[80]

5. LLaMA 버전별 특징

LLaMA는 다양한 버전으로 출시되었으며, 각 버전은 매개변수, 학습 비용, 문맥 길이, 말뭉치 크기 등에서 차이를 보인다. 다음은 LLaMA의 주요 버전별 특징을 정리한 표이다.

각 버전의 학습 비용은 가장 큰 모델을 기준으로 기재되어 있다. 예를 들어, Llama 2의 경우 690억 매개변수 모델의 학습 비용이 21,000 페타플롭-일로 기록되어 있다. 여기서 1 페타플롭-일은 8.64E19 FLOP과 같다. "T"는 "조"를, "B"는 "억"을 의미한다.

5. 1. LLaMA 2

마이크로소프트(Microsoft)와의 파트너십을 통해 2023년 7월 18일, 메타(Meta)는 차세대 Llama인 Llama 2를 발표했다.^[18] Llama 2는 70억, 130억, 700억 개의 매개변수를 가진 세 가지 크기의 모델로 학습 및 공개되었다.^[18] 모델 아키텍처는 LLaMA-1 모델과 크게 달라지지 않았지만, 기본 모델 학습에 사용된 데이터는 40% 증가했다.^[19]

Llama 2는 기본 모델과 채팅을 위해 미세 조정된 모델을 포함한다. Llama의 원래 버전과 달리 모든 모델은 가중치와 함께 공개되어 상업적 용도로 사용될 수 있다. 그러나 Llama의 라이선스는 Llama가 특정 목적으로 사용되는 것을 금지하는 허용 가능한 사용 정책을 시행하기 때문에, 메타가 Llama를 '오픈 소스'로 설명하는 것에 대해 오픈 소스 이니셔티브(Open Source Initiative)(오픈 소스 정의(The Open Source Definition)를 관리하는 기관) 및 기타 단체에서 이의를 제기했다.^[20]^[21]

5. 2. Code LLaMA

Code Llama는 코드 특정 데이터 세트를 사용하여 Llama 2를 미세 조정한 것이다. 2023년 8월 24일에 70억, 130억, 340억 버전이 공개되었고, 2024년 1월 29일에 700억 버전이 공개되었다.^[22] 메타 AI는 Llama 2의 기본 모델을 시작으로 5,000억 개의 코드 데이터 세트 토큰을 추가로 학습한 후 200억 개의 장문맥 데이터 토큰을 추가로 학습하여 Code Llama 기본 모델을 만들었다. 이 기본 모델은 50억 개의 지시 사항 수행 토큰으로 추가 학습되어 지시 미세 조정을 만들었다. 파이썬 코드용 또 다른 기본 모델은 장문맥 데이터 이전에 1,000억 개의 파이썬 전용 코드 토큰으로 학습되었다.^[23]

5. 3. LLaMA 3

2024년 4월 18일, 메타(Meta)는 80억 개와 700억 개의 매개변수를 가진 두 가지 버전의 LLaMA 3를 출시했다.^[24] 이 모델들은 공개적으로 사용 가능한 소스에서 수집한 약 15조 개의 토큰으로 사전 훈련되었으며, 지시 모델은 공개적으로 사용 가능한 지시 데이터 세트와 1천만 개 이상의 사람이 주석을 단 예제를 사용하여 미세 조정되었다. 메타 AI의 2024년 4월 테스트 결과에 따르면, LLaMA 3 700억 매개변수 모델은 대부분의 벤치마크에서 Gemini Pro 1.5와 Claude 3 Sonnet을 능가하는 성능을 보였다. 메타는 또한 LLaMA 3를 다국어 및 다중 모달로 만들고, 코딩 및 추론 능력을 향상시키고, 문맥 창을 확장할 계획을 발표했다.^[25]^[26]

마크 저커버그는 드워케시 파텔(Dwarkesh Patel)과의 인터뷰에서 LLaMA 3의 80억 매개변수 버전이 가장 큰 LLaMA 2와 거의 동등한 성능을 보였다고 말했다. 저커버그는 이전 모델과 비교하여 700억 매개변수 모델이 15조 개의 토큰 훈련이 끝날 때까지도 학습을 계속하고 있다는 사실에 놀랐다고 밝혔으며, GPU 성능을 다른 곳에 집중하기 위해 훈련을 중단하기로 결정했다고 한다.^[27]

6. 모델 비교

학습 비용 열에는 가장 큰 모델의 비용만 기재되어 있다. 예를 들어 "21,000"은 페타플롭-일 단위로 측정한 Llama 2 690억 매개변수 모델의 학습 비용이다. 1 페타플롭-일 = 1 페타플롭/초 × 1일 = 8.64E19 FLOP이다. "T"는 "조"를, "B"는 "억"을 의미한다.

7. 응용

스탠퍼드 대학교 인간 중심 인공지능 연구소(HAI)의 기초 모델 연구 센터(CRFM)는 LLaMA 7B 모델을 기반으로 "자기 지시(Self-Instruct)" 방법의 지시 조정(instruction tuning)을 사용하여 적은 비용으로 OpenAI GPT-3 시리즈 text-davinci-003 모델과 비교할 만한 성능을 얻는 훈련 레시피인 알파카(Alpaca)를 공개했다.^[41]^[42]^[43] 호스팅 비용 및 안전 문제로 인해 2023년 3월 21일에 모델 파일은 공식적으로 삭제되었지만, 코드와 논문은 참조를 위해 온라인에 남아있다.^[44]^[45]

메디트론(Meditron)은 임상 지침, PubMed 논문 및 기사의 말뭉치를 사용하여 미세 조정된 LLaMA 기반 모델 계열이다. 로잔 연방 공과대학교 컴퓨터 및 통신 과학부와 예일 의과대학 연구원들이 개발했으며, MedQA 및 MedMCQA와 같은 의료 관련 벤치마크에서 성능이 향상되었다.^[46]^[47]^[48]

줌(Zoom)은 메타 LLaMA 2를 사용하여 회의 요약, 유용한 프레젠테이션 팁 제공 및 메시지 응답 지원 기능을 제공하는 AI 컴패니언을 만들었다. 이 AI 컴패니언은 메타 LLaMA 2를 포함한 여러 모델을 기반으로 작동한다.^[49]

ELYZA는 Meta의 "LLaMA 3" 시리즈를 기반으로 일본어 성능을 강화한 LLM "Llama-3-ELYZA-JP"(8B 및 70B)를 개발했다.^[69]

소프트웨어 개발자 Georgi Gerganov는 2023년 3월 10일 llama.cpp를 오픈소스로 공개했다. 이는 C++로 LLaMA를 재구현한 것으로, 강력한 GPU가 없는 시스템에서도 모델을 로컬로 실행할 수 있게 한다.^[51]

llamafile은 llama.cpp와 모델을 단일 실행 파일로 번들링하는 오픈소스 도구이다.^[54]

8. 군사적 이용

2024년, 중국 인민해방군 군사과학원(중국 최고의 군사학교)의 연구원들이 LLaMA를 이용한 군사 도구를 개발했다는 보도가 있었다. 메타 플랫폼스(Meta Platforms)는 LLaMA의 라이선스가 군사 목적 사용을 금지하고 있기 때문에 이는 무단 사용이라고 밝혔다.^[55]^[56] 2024년 11월, 메타는 미국 정부와 미국 군수업체에 LLaMA 사용을 허가했지만, 미국 이외의 단체에서 군사 목적으로 사용하는 것은 계속 금지했다.^[21]^[57]

9. 평가

《와이어드》(Wired)는 Llama 3의 80억 매개변수 버전이 크기를 고려할 때 "놀라울 정도로 능력이 뛰어나다"고 평가했다.^[58] 메타의 Llama 통합에 대한 반응은 엇갈렸는데, 메타 AI가 한 부모 그룹에게 자신이 아이가 있다고 말한 후 일부 사용자들이 혼란스러워했다.^[59]

참조

_[1] 웹사이트 llama-models/models/llama3_2/LICENSE at main · meta-llama/llama-models · GitHub https://github.com/m[...] 2024-10-20
_[2] 잡지 Meta Releases Llama 3.2—and Gives Its AI a Voice https://www.wired.co[...] 2024-09-25
_[3] 웹사이트 Introducing Llama 3.1: Our most capable models to date https://ai.meta.com/[...] 2024-07-23
_[4] 뉴스 Meta heats up Big Tech's AI arms race with new language model https://www.reuters.[...] Reuters 2023-02-25
_[5] 웹사이트 Meta's AI research head wants open source licensing to change https://www.theverge[...] 2023-10-30
_[6] 웹사이트 Meet Your New Assistant: Meta AI, Built With Llama 3 https://about.fb.com[...] 2024-04-18
_[7] 웹사이트 Examining Emergent Abilities in Large Language Models https://hai.stanford[...] 2022-09-13
_[8] 웹사이트 The inside story of how ChatGPT was built from the people who made it https://www.technolo[...] 2024-10-20
_[9] 웹사이트 ChatGPT is 'not particularly innovative,' and 'nothing revolutionary', says Meta's chief AI scientist https://www.zdnet.co[...] 2023-01-23
_[10] 웹사이트 Meta's Yann LeCun on auto-regressive Large Language Models (LLMs) https://futurist.com[...] 2023-02-13
_[11] 웹사이트 Yann LeCun on LinkedIn: My unwavering opinion on current (auto-regressive) LLMs https://www.linkedin[...] 2024-10-20
_[12] 웹사이트 Meta’s Yann LeCun Asks How AIs will Match — and Exceed — Human-level Intelligence https://www.engineer[...]
_[13] 뉴스 Meta's LLaMA Leaked to the Public, Thanks To 4chan https://analyticsind[...] 2023-03-06
_[14] 웹사이트 Save bandwidth by using a torrent to distribute more efficiently by ChristopherKing42 · Pull Request #73 · facebookresearch/llama https://github.com/f[...]
_[15] 웹사이트 Download weights from hugging face to help us save bandwidth by Jainam213 · Pull Request #109 · facebookresearch/llama https://github.com/f[...]
_[16] 뉴스 Facebook's Powerful Large Language Model Leaks Online https://www.vice.com[...] 2023-03-07
_[17] 웹사이트 github/dmca - Notice of Claimed Infringement via Email https://github.com/g[...] GitHub 2023-03-21
_[18] 웹사이트 Meta and Microsoft Introduce the Next Generation of LLaMA https://about.fb.com[...] 2023-07-18
_[19] arXiv LLaMA-2: Open Foundation and Fine-Tuned Chat Models 2023-07-18
_[20] 웹사이트 Meta launches LLaMA-2, a source-available AI model that allows commercial applications [Updated] https://arstechnica.[...] 2023-07-18
_[21] 웹사이트 Meta offers Llama AI to US government for national security https://www.cio.com/[...] 2024-11-05
_[22] 웹사이트 Introducing Code Llama, a state-of-the-art large language model for coding https://ai.meta.com/[...]
_[23] arXiv Code Llama: Open Foundation Models for Code 2024-01-31
_[24] 웹사이트 Introducing Meta Llama 3: The most capable openly available LLM to date https://ai.meta.com/[...] 2024-04-18
_[25] 웹사이트 Meta releases Llama 3, claims it's among the best open models available https://techcrunch.c[...] 2024-04-18
_[26] 웹사이트 Meta debuts third-generation Llama large language model https://www.theregis[...] 2024-04-19
_[27] 웹사이트 Mark Zuckerberg - Llama 3, Open Sourcing $10b Models, & Caesar Augustus https://www.dwarkesh[...] 2024-07-24
_[28] 논문 The Llama 3 Herd of Models 2024-07-31
_[29] 웹사이트 The Falcon has landed in the Hugging Face ecosystem https://huggingface.[...]
_[30] 웹사이트 llama/MODEL_CARD.md at main · meta-llama/llama https://github.com/m[...]
_[31] 웹사이트 Andrej Karpathy (Apr 18, 2024), ''The model card has some more interesting info too'' https://x.com/karpat[...]
_[32] 웹사이트 llama3/MODEL_CARD.md at main · meta-llama/llama3 https://github.com/m[...]
_[33] 웹사이트 llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models https://github.com/m[...]
_[34] 웹사이트 Meta releases its first open AI model that can process images https://www.theverge[...] 2024-09-25
_[35] 웹사이트 Meta's Llama AI models get multimodal https://techcrunch.c[...] 2024-09-25
_[36] 웹사이트 Archived copy https://ai.meta.com/[...] 2024-09-26
_[37] arXiv GLU Variants Improve Transformer 2020-02-01
_[38] arXiv RoFormer: Enhanced Transformer with Rotary Position Embedding 2021-04-01
_[39] arXiv Root Mean Square Layer Normalization 2019-10-01
_[40] arXiv Layer Normalization 2016-07-01
_[41] 웹사이트 Alpaca: A Strong, Replicable Instruction-Following Model https://crfm.stanfor[...] Stanford Center for Research on Foundation Models 2023-03-13
_[42] arXiv Self-Instruct: Aligning Language Models with Self-Generated Instructions
_[43] 웹사이트 Stanford CRFM https://crfm.stanfor[...] 2023-03-20
_[44] 웹사이트 Stanford takes costly, risky Alpaca AI model offline https://www.theregis[...]
_[45] 웹사이트 Stanford Researchers Take Down Alpaca AI Over Cost and Hallucinations https://gizmodo.com/[...] 2023-03-21
_[46] 웹사이트 Meditron: An LLM suite for low-resource medical settings leveraging Meta Llama https://ai.meta.com/[...]
_[47] 웹사이트 EPFL's new Large Language Model for Medical Knowledge https://actu.epfl.ch[...] 2023-11-28
_[48] 웹사이트 epfLLM/meditron https://github.com/e[...] epfLLM 2024-05-11
_[49] 웹사이트 How Companies Are Using Meta Llama https://about.fb.com[...] 2024-05-07
_[50] 뉴스 How dependent is China on US artificial intelligence technology? https://www.reuters.[...] 2024-05-09
_[51] 웹사이트 You can now run a GPT-3-level AI model on your laptop, phone, and Raspberry Pi https://arstechnica.[...] 2023-03-13
_[52] 웹사이트 GGUF https://huggingface.[...] 2024-05-09
_[53] 웹사이트 Quantize Llama models with GGUF and llama.cpp https://towardsdatas[...] Towards Data Science 2023-11-29
_[54] 웹사이트 Llamafile LLM driver project boosts performance on CPU cores https://www.theregis[...]
_[55] 웹사이트 PRC Adapts Meta’s Llama for Military and Security AI Applications https://jamestown.or[...] 2024-10-31
_[56] 뉴스 Chinese researchers develop AI model for military use on back of Meta's Llama https://www.reuters.[...] 2024-11-01
_[57] 웹사이트 Meta Opens Its AI Model for the U.S. Military - IEEE Spectrum https://spectrum.iee[...] 2024-11-17
_[58] 잡지 Meta's Open Source Llama 3 Is Already Nipping at OpenAI's Heels https://www.wired.co[...]
_[59] 웹사이트 Meta's amped-up AI agents confusing Facebook users https://www.abc.net.[...] 2024-04-19
_[60] 웹사이트 Archived copy https://s21.q4cdn.co[...]
_[61] 잡지 Meta's New Llama 3.1 AI Model Is Free, Powerful, and Risky https://www.wired.co[...]
_[62] 뉴스 Meta under fire for ‘polluting’ open-source https://www.ft.com/c[...] 2024-10-17
_[63] arXiv LLaMA: Open and Efficient Foundation Language Models
_[64] 웹사이트 Introducing LLaMA: A foundational, 65-billion-parameter large language model https://ai.facebook.[...] 2023-02-24
_[65] Github
_[66] 웹사이트 Meta's powerful AI language model has leaked online — what happens now? https://www.theverge[...] 2023-03-08
_[67] Github
_[68] Wikidata
_[69] 웹사이트 「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました https://note.com/ely[...] ELYZA 2024-06-26
_[70] arXiv LLaMA: Open and Efficient Foundation Language Models
_[71] 웹인용 Introducing LLaMA: A foundational, 65-billion-parameter large language model https://ai.facebook.[...] 2023-02-24
_[72] 웹인용 Meta's powerful AI language model has leaked online — what happens now? https://www.theverge[...] 2023-03-08
_[73] 웹인용 llama https://github.com/f[...] 2023-03-16
_[74] 웹인용 /g/ - /aicg/ - AI Chatbot General - Technology - 4chan https://boards.4chan[...] 2023-09-09
_[75] 뉴스 Meta's LLaMA Leaked to the Public, Thanks To 4chan https://analyticsind[...] 2023-03-06
_[76] 웹인용 Download weights from huggingface to help us save bandwith by Jainam213 · Pull Request #109 · facebookresearch/llama https://github.com/f[...] 2023-03-17
_[77] 뉴스 Facebook's Powerful Large Language Model Leaks Online https://www.vice.com[...] 2023-03-07
_[78] 웹인용 github/dmca - Notice of Claimed Infringement via Email https://github.com/g[...] GitHub 2023-03-21
_[79] 웹인용 Save bandwidth by using a torrent to distribute more efficiently by ChristopherKing42 · Pull Request #73 · facebookresearch/llama https://github.com/f[...] 2023-03-25
_[80] 웹인용 Large language models are having their Stable Diffusion moment https://simonwilliso[...] 2023-03-11

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

LLaMA - [IT 관련 정보]에 관한 문서
기본 정보
위키피디아를 사려 깊게 설명하는 Llama 답변 예시 스크린샷
개발사	Meta AI
출시일	2023년 2월 24일
최신 버전	Llama 3.3
최신 출시일	2024년 12월 7일
저장소	GitHub
장르	대규모 언어 모델 GPT 기반 모델
프로그래밍 언어	파이썬
라이선스	소스 이용 가능 (Meta Llama 3.2 커뮤니티 라이선스)
웹사이트	llama.com
기술 정보
모델 유형	대규모 언어 모델
매개변수 수	70억 130억 330억 650억
훈련 데이터 크기	1조 토큰
아키텍처	트랜스포머
훈련 방식	자가 지도 학습
최적화 방법	메모리 효율적인 훈련
특징	오픈 소스 기반의 대규모 언어 모델 여러 크기의 모델 제공 (7B, 13B, 33B, 65B) 다양한 다운스트림 태스크에 적용 가능 사용자 친화적인 인터페이스 및 라이브러리 제공 빠른 추론 속도 및 효율적인 리소스 사용
모델 버전
LLaMA 1	2023년 2월 공개 7B, 13B, 33B, 65B 파라미터 모델 제공 연구 목적으로 공개
LLaMA 2	2023년 7월 공개 7B, 13B, 34B, 70B 파라미터 모델 제공 상업적 이용 가능 미세 조정 버전 및 대화형 모델 포함 안전성 및 책임 관련 기능 추가
LLaMA 3	2024년 4월 공개 8B, 70B 파라미터 모델 제공 다국어 지원 개선 멀티모달 기능 강화 성능 향상 및 모델 크기 축소
활용 사례
Meta AI 챗봇	Meta AI 제품에 통합
연구	자연어 처리 연구에 활용
개발	사용자 정의 모델 개발에 활용
비즈니스	다양한 산업 분야에서 비즈니스 솔루션 개발에 활용
기타
관련 정보	Chinchilla (언어 모델)

이름	출시일	학습 비용 (페타플롭-일)	문맥 길이 (토큰)	상용화 가능성
LLaMA	2023년 2월 24일
Llama 2	2023년 7월 18일
Code Llama	2023년 8월 24일	\|		, 허용 이용 정책 적용 대상
Llama 3	2024년 4월 18일
Llama 3.1	2024년 7월 23일
Llama 3.2	2024년 9월 25일	\|	128,000^[36]	, 허용 이용 정책 적용 대상
Llama 3.3	2024년 12월 7일

이름	출시일	학습 비용 (페타플롭-일)	문맥 길이 (토큰)	말뭉치 크기 (토큰)	상용화 가능성?
LLaMA	2023년 2월 24일	6,300^[29]	2048	1~1.4조
Llama 2	2023년 7월 18일	21,000^[30]	4096	2조	허용 이용 정책 적용 대상
Code Llama	2023년 8월 24일
Llama 3	2024년 4월 18일	100,000^[31]^[32]	8192	15조
Llama 3.1	2024년 7월 23일	440,000^[28]^[33]	128,000
Llama 3.2	2024년 9월 25일		128,000^[36]
Llama 3.3	2024년 12월 7일		128,000