AMD 인스팅트
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
AMD 인스팅트는 AMD가 개발한 데이터 센터 및 고성능 컴퓨팅(HPC)용 GPU 제품군이다. 2016년에 처음 출시되었으며, GCN, CDNA, CDNA 2, CDNA 3 아키텍처를 기반으로 한다. MI6, MI8, MI25, MI50, MI60, MI100, MI210, MI250, MI250X, MI300A, MI300X, MI325X 등의 모델이 있으며, 딥 러닝, HPC, 생성형 AI 워크로드에 사용된다. ROCm 소프트웨어 스택을 통해 지원되며, MxGPU 가상화 기술과 MIOpen 라이브러리를 제공한다.
더 읽어볼만한 페이지
- AMD의 그래픽 카드 - 라데온 RX 7000 시리즈
라데온 RX 7000 시리즈는 AMD의 고성능 데스크톱 및 모바일 GPU 제품군으로, RDNA 3 아키텍처 기반, 칩렛 디자인, 향상된 컴퓨트 유닛, 2세대 레이 트레이싱 가속기, AI 추론 가속 등의 특징을 가지며, DisplayPort 2.1과 HDMI 2.1a를 지원하는 "Radiance Display" 엔진과 AV1 하드웨어 코덱을 탑재했다. - AMD의 그래픽 카드 - 라데온 RX 6000 시리즈
라데온 RX 6000 시리즈는 AMD가 2020년에 발표한 RDNA 2 아키텍처 기반의 고성능 그래픽 카드 시리즈로, 최신 기술을 지원하며 지포스 RTX 30 시리즈와 경쟁하며 고해상도 게이밍 환경을 제공하는 것을 목표로 데스크톱 및 모바일 환경에서 활용되고 있다. - 코프로세서 - 제온 파이
제온 파이는 인텔에서 개발한 x86 기반 메니코어 프로세서로, 나이츠 페리, 나이츠 코너, 나이츠 랜딩, 나이츠 밀 등의 모델이 있으며, AVX-512 명령어 세트 지원을 통해 고성능 컴퓨팅 환경에서 복잡한 연산을 효율적으로 처리하는 데 중점을 둔다. - 코프로세서 - 엔비디아 테슬라
엔비디아 테슬라는 엔비디아가 개발한 고성능 GPU 제품군으로, CUDA를 활용한 병렬 컴퓨팅 환경을 제공하여 다양한 분야에서 고성능 컴퓨팅을 지원하며, 여러 마이크로아키텍처 기반 모델을 통해 발전해왔고, 메모리 및 통신 대역폭을 늘리는 혁신을 거듭해왔다.
AMD 인스팅트 | |
---|---|
AMD 인스팅트 (AMD Instinct) | |
![]() | |
제작 시작일 | 2017년 6월 20일 |
설계 회사 | AMD |
마케팅 회사 | AMD |
모델 | MI 시리즈 |
이전 제품 | AMD FirePro 라데온 스카이 시리즈 |
코어 수 | 36-304 컴퓨트 유닛 (CU) |
기술 사양 | |
마이크로아키텍처 | GCN 3 GCN 4 GCN 5 CDNA CDNA 2 CDNA 3 |
제조 공정 | 14 nm (Polaris10) 28 nm (Fiji) 7 nm (Vega20, Arcturus) 6 nm (Aldebaran) 5 nm (Antares, Aqua Vanjaram) |
트랜지스터 수 | 57억 개 (Polaris10) 89억 개 (Fiji) 125억 개 (Vega10) 132억 개 (Vega20) 256억 개 (Arcturus) 582억 개 (Aldebaran) 1460억 개 (Antares) 1530억 개 (Aqua Vanjaram) |
2. 제품
AMD 인스팅트는 초기 모델인 MI6, MI8, MI25를 시작으로, 다양한 아키텍처를 기반으로 하는 여러 모델을 포함한다.
2016년 12월에 발표된 초기 세 모델은 각각 다른 아키텍처를 기반으로 한다. MI6은 폴라리스 10, MI8은 피지(Fiji), MI25는 베가 아키텍처를 사용한다.
이후, 2018년 11월에는 MI50 및 MI60 모델이 출시되었으며, 베가 20 아키텍처를 기반으로 7nm 공정으로 제조되었다.[7]
2020년 11월에는 CDNA 아키텍처 기반의 MI100이 출시되었으며,[7] 2021년 11월과 2022년 3월에는 CDNA 2 아키텍처 기반의 MI200 시리즈(MI210, MI250, MI250X)가 출시되었다.[8][9]
가장 최근에는 2023년 12월, CDNA 3 아키텍처를 기반으로 하는 MI300 시리즈(MI300A, MI300X)가 출시되었다.[10] 2024년 6월에는 MI300 시리즈를 기반으로 하는 MI325X가 출시되었다.[11]
각 제품의 세부 사양은 아래 표와 같다.
2. 1. MI6
MI6는 수동 냉각(패시브 쿨링) 방식의 16 GB GDDR5 메모리를 탑재하고 있으며, 150 W 미만의 TDP를 갖는 폴라리스 10 기반 카드이다.[64] 5.7 TFLOPS (FP16 및 FP32) 성능과 358 GFLOPS의 최고 배정밀도(FP64) 연산 성능을 갖춘 MI6는 신경망 훈련보다는 주로 추론에 사용될 것으로 예상된다.[14][66]
2. 2. MI8
MI8은 피지(Fiji) 기반의 카드로서, R9 나노와 유사하며, TDP는 175W 미만으로 짐작된다.[64] 4GB의 고대역 메모리를 갖추고 있다. 최고 배정밀(FP64) 연산 성능은 512 GFLOPS이다.[67]
2. 3. MI25
MI25는 베가 아키텍처 기반의 가속기이다. 16GB의 HBM2 메모리를 탑재하고 있다. FP32 연산 성능은 12.3 TFLOPS이며, FP16 연산 성능은 24.6 TFLOPS로, 낮은 정밀도의 연산에서 더 높은 성능을 제공한다. 패시브 쿨링(수동 냉각)을 사용할 경우 300W 미만의 전력을 소비한다. 또한, MI25는 768 GFLOPS의 최고 배정밀도(FP64) 성능을 제공한다.[68]
2. 4. MI50
MI50은 2018년 11월 6일에 출시되었으며, 베가 20 아키텍처를 기반으로 7nm 공정으로 제조되었다.[7] 60개의 컴퓨트 유닛을 가지고 있으며, 16GB 또는 32GB의 HBM2 메모리를 탑재하고 최대 1024 GB/s의 대역폭을 제공한다. PCIe 4.0을 지원하며, 폼 팩터는 PCIe이다. FP16, FP32, FP64, INT8 연산에서 각각 26.5 TFLOPS, 13.3 TFLOPS, 6.6 TFLOPS, 53 TOPS의 성능을 제공한다. TBP는 300W이다.처리 능력 | FP16 | FP32 | FP64 | INT8 |
---|---|---|---|---|
성능 | 26.5 TFLOPS | 13.3 TFLOPS | 6.6 TFLOPS | 53 TOPS |
2. 5. MI60
MI60은 2018년 11월 6일에 출시되었으며,[7] 7nm 공정의 베가 20 아키텍처를 기반으로 한다. MI50과 비교했을 때, MI60은 64개의 컴퓨트 유닛(CU)을 가지고 있어 더 많은 컴퓨팅 유닛이 활성화되어 성능이 향상되었다. 32GB의 HBM2 메모리를 탑재하고 있으며, 메모리 대역폭은 1024GB/s이다.[7] PCIe 4.0을 지원하며, 폼 팩터는 PCIe이다. TBP는 300W이다.MI60의 성능은 다음과 같다.
FP16 | FP32 | FP64 | INT8 |
---|---|---|---|
29.5 TFLOPS | 14.7 TFLOPS | 7.4 TFLOPS | 59 TOPS |
2. 6. MI100
MI100은 2020년 11월 16일에 출시된 가속기로, CDNA 아키텍처를 기반으로 하며 7nm 공정으로 제조되었다.[7] 32GB의 HBM2 메모리를 탑재하고 있으며, 1200GB/s의 대역폭을 제공한다. PCIe 4.0을 지원하며, 폼 팩터는 PCIe이다.MI100은 AI 및 HPC 워크로드에서 높은 성능을 제공하기 위해 행렬 연산 가속 기능을 탑재했다. FP16, BF16, FP32, FP32 매트릭스, FP64, FP64 매트릭스, INT8, INT4 등 다양한 데이터 형식에 대한 연산 성능은 다음과 같다.
데이터 형식 | 처리 능력 (TFLOPS/TOPS) |
---|---|
FP16 | 184.6 |
BF16 | 92.3 |
FP32 | 23.1 |
FP32 매트릭스 | 46.1 |
FP64 | 11.5 |
FP64 매트릭스 | 46.1 |
INT8 | 184.6 |
INT4 | N/A |
MI100의 TBP는 300W이다.
2. 7. MI200 시리즈
MI200 시리즈는 CDNA 2 아키텍처를 기반으로 하며, TSMC의 6nm 공정으로 제조되었다.[8][9] MI200 시리즈는 MI210, MI250, MI250X 모델을 포함한다.
2. 8. MI300 시리즈
MI300A 및 MI300X는 CDNA 3 아키텍처를 사용하는 데이터 센터 가속기로, 고성능 컴퓨팅(HPC) 및 생성형 인공지능(AI) 워크로드를 위해 최적화되었다. CDNA 3 아키텍처는 TSMC의 CoWoS(chip-on-wafer-on-substrate) 및 InFO(integrated fan-out)와 같은 첨단 패키징 기술을 활용하여 단일 인터포저에 여러 칩렛을 결합하는 확장 가능한 칩렛 설계를 특징으로 한다. 칩렛은 AMD의 인피니티 패브릭(Infinity Fabric)으로 상호 연결되어 칩렛과 호스트 시스템 간의 고속, 저지연 데이터 전송을 가능하게 한다.MI300 시리즈는 2023년 12월 6일에 출시되었다.[10]
2. 8. 1. MI300A
MI300A는 24개의 Zen 4 CPU 코어와 4개의 CDNA 3 GPU 코어를 통합한 가속 처리 장치(APU)이다. GPU 섹션에는 총 228개의 CU와 128GB의 HBM3 메모리를 갖추고 있다.[1] Zen 4 CPU 코어는 5nm 공정 노드를 기반으로 하며 x86-64 명령어 집합, AVX-512 및 BFloat16 확장을 지원한다.[1] Zen 4 CPU 코어는 범용 애플리케이션을 실행하고 GPU 코어에 대한 호스트 측 계산을 제공할 수 있다.[1]MI300A는 FP64에서 61.3TFLOPS(FP64 행렬에서 122.6TFLOPS)의 피크 성능과 FP16에서 980.6TFLOPS(희소성을 활용하면 1961.2TFLOPS)의 성능을 가지며, 5.3TB/s의 메모리 대역폭을 지원한다.[1] PCIe 5.0 및 CXL 2.0 인터페이스를 지원하여 이기종 시스템의 다른 장치 및 가속기와 통신할 수 있다.[1]
2. 8. 2. MI300X
MI300X는 CPU 코어를 추가 GPU 코어와 HBM 메모리로 대체하여 총 304개의 CDNA 3 CU(CU당 64개 코어)와 192GB의 HBM3 메모리를 갖춘 생성형 인공지능(AI) 전용 가속기이다. MI300X는 자연어 처리, 컴퓨터 비전, 딥 러닝과 같은 생성형 AI 애플리케이션을 가속화하도록 설계되었다. MI300X는 TP32에서 653.7TFLOPS(희소성을 활용하면 1307.4TFLOPS)의 피크 성능과 FP16에서 1307.4TFLOPS(희소성을 활용하면 2614.9TFLOPS)의 성능을 가지며, 5.3TB/s의 메모리 대역폭을 지원한다. MI300X는 PCIe 5.0 및 CXL 2.0 인터페이스뿐만 아니라 AMD 하드웨어에서 생성형 AI 애플리케이션을 개발하고 배포하기 위한 통합 프로그래밍 모델과 도구를 제공하는 AMD의 ROCm 소프트웨어 스택도 지원한다.[1]3. 소프트웨어
AMD 인스팅트는 ROCm(Radeon Open Compute platform) 소프트웨어 스택을 통해 지원된다.
3. 1. ROCm
ROCm은 2022년 기준으로 라데온 오픈 컴퓨트 메타 프로젝트로 재편성되었다.3. 2. MxGPU
MI6, MI8, MI25 제품들은 모두 AMD의 MxGPU 가상화 기술을 지원하여, 여러 사용자가 GPU 리소스를 공유할 수 있게 해준다.[64][1][20]3. 3. MIOpen
MIOpen은 딥 러닝의 GPU 가속화를 지원하는 AMD의 딥 러닝 라이브러리이다.[64] 엔비디아의 CUDA 라이브러리의 딥 러닝 부분과 경쟁하기 위해 고안되었다. Theano, Caffe, 텐서플로, MXNet, The Microsoft Cognitive Toolkit, Torch, Chainer와 같은 딥 러닝 프레임워크를 지원한다. 프로그래밍은 OpenCL과 파이썬을 지원하며, 이 외에 Portability and Heterogeneous Compute Compiler를 위해 AMD의 다기종 연산 인터페이스를 통한 CUDA의 컴파일을 지원한다.[64]4. 칩셋 표
(GFLOPS)
(부스트)
(부스트)
(부스트)
(부스트)