AMD 인스팅트

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 제품
3. 소프트웨어
4. 칩셋 표
참조

1. 개요

AMD 인스팅트는 AMD가 개발한 데이터 센터 및 고성능 컴퓨팅(HPC)용 GPU 제품군이다. 2016년에 처음 출시되었으며, GCN, CDNA, CDNA 2, CDNA 3 아키텍처를 기반으로 한다. MI6, MI8, MI25, MI50, MI60, MI100, MI210, MI250, MI250X, MI300A, MI300X, MI325X 등의 모델이 있으며, 딥 러닝, HPC, 생성형 AI 워크로드에 사용된다. ROCm 소프트웨어 스택을 통해 지원되며, MxGPU 가상화 기술과 MIOpen 라이브러리를 제공한다.

더 읽어볼만한 페이지

AMD의 그래픽 카드 - 라데온 RX 7000 시리즈
라데온 RX 7000 시리즈는 AMD의 고성능 데스크톱 및 모바일 GPU 제품군으로, RDNA 3 아키텍처 기반, 칩렛 디자인, 향상된 컴퓨트 유닛, 2세대 레이 트레이싱 가속기, AI 추론 가속 등의 특징을 가지며, DisplayPort 2.1과 HDMI 2.1a를 지원하는 "Radiance Display" 엔진과 AV1 하드웨어 코덱을 탑재했다.
AMD의 그래픽 카드 - 라데온 RX 6000 시리즈
라데온 RX 6000 시리즈는 AMD가 2020년에 발표한 RDNA 2 아키텍처 기반의 고성능 그래픽 카드 시리즈로, 최신 기술을 지원하며 지포스 RTX 30 시리즈와 경쟁하며 고해상도 게이밍 환경을 제공하는 것을 목표로 데스크톱 및 모바일 환경에서 활용되고 있다.
코프로세서 - 제온 파이
제온 파이는 인텔에서 개발한 x86 기반 메니코어 프로세서로, 나이츠 페리, 나이츠 코너, 나이츠 랜딩, 나이츠 밀 등의 모델이 있으며, AVX-512 명령어 세트 지원을 통해 고성능 컴퓨팅 환경에서 복잡한 연산을 효율적으로 처리하는 데 중점을 둔다.
코프로세서 - 엔비디아 테슬라
엔비디아 테슬라는 엔비디아가 개발한 고성능 GPU 제품군으로, CUDA를 활용한 병렬 컴퓨팅 환경을 제공하여 다양한 분야에서 고성능 컴퓨팅을 지원하며, 여러 마이크로아키텍처 기반 모델을 통해 발전해왔고, 메모리 및 통신 대역폭을 늘리는 혁신을 거듭해왔다.

AMD 인스팅트
AMD 인스팅트 (AMD Instinct)
AMD 라데온 인스팅트 워드마크
제작 시작일	2017년 6월 20일
설계 회사	AMD
마케팅 회사	AMD
모델	MI 시리즈
이전 제품	AMD FirePro 라데온 스카이 시리즈
코어 수	36-304 컴퓨트 유닛 (CU)
기술 사양
마이크로아키텍처	GCN 3 GCN 4 GCN 5 CDNA CDNA 2 CDNA 3
제조 공정	14 nm (Polaris10) 28 nm (Fiji) 7 nm (Vega20, Arcturus) 6 nm (Aldebaran) 5 nm (Antares, Aqua Vanjaram)
트랜지스터 수	57억 개 (Polaris10) 89억 개 (Fiji) 125억 개 (Vega10) 132억 개 (Vega20) 256억 개 (Arcturus) 582억 개 (Aldebaran) 1460억 개 (Antares) 1530억 개 (Aqua Vanjaram)

2. 제품

AMD 인스팅트는 초기 모델인 MI6, MI8, MI25를 시작으로, 다양한 아키텍처를 기반으로 하는 여러 모델을 포함한다.

2016년 12월에 발표된 초기 세 모델은 각각 다른 아키텍처를 기반으로 한다. MI6은 폴라리스 10, MI8은 피지(Fiji), MI25는 베가 아키텍처를 사용한다.

이후, 2018년 11월에는 MI50 및 MI60 모델이 출시되었으며, 베가 20 아키텍처를 기반으로 7nm 공정으로 제조되었다.^[7]

2020년 11월에는 CDNA 아키텍처 기반의 MI100이 출시되었으며,^[7] 2021년 11월과 2022년 3월에는 CDNA 2 아키텍처 기반의 MI200 시리즈(MI210, MI250, MI250X)가 출시되었다.^[8]^[9]

가장 최근에는 2023년 12월, CDNA 3 아키텍처를 기반으로 하는 MI300 시리즈(MI300A, MI300X)가 출시되었다.^[10] 2024년 6월에는 MI300 시리즈를 기반으로 하는 MI325X가 출시되었다.^[11]

각 제품의 세부 사양은 아래 표와 같다.

AMD 인스팅트 GPU 세대
가속기	출시일	아키텍처	리소그래피	컴퓨트 유닛	메모리			PCIe 지원	폼 팩터	처리 능력								TBP
가속기	출시일	아키텍처	리소그래피	컴퓨트 유닛	크기	유형	대역폭(GB/s)	PCIe 지원	폼 팩터	FP16	BF16	FP32	FP32 매트릭스	FP64 성능	FP64 매트릭스	INT8	INT4	TBP
MI6	2016-12-12^[6]	GCN 4	14 nm	36	16 GB	GDDR5	224	3.0	PCIe	5.7TFLOPS		5.7TFLOPS		358GFLOPS				150W
MI8		GCN 3	28 nm	64	4 GB	HBM	512			8.2TFLOPS		8.2TFLOPS		512GFLOPS				175W
MI25		GCN 5	14 nm	64	16 GB	HBM2	484			26.4TFLOPS		12.3TFLOPS		768GFLOPS				300W
MI50	2018-11-06^[7]		7 nm	60	16 GB		1024	4.0		26.5TFLOPS		13.3TFLOPS		6.6TFLOPS		53TOPS		300W
MI60	2018-11-06^[7]			64	32 GB		1024			29.5TFLOPS		14.7TFLOPS		7.4TFLOPS		59TOPS		300W
MI100	2020-11-16	CDNA		120	32 GB		1200			184.6TFLOPS	92.3TFLOPS	23.1TFLOPS	46.1TFLOPS	11.5TFLOPS	46.1TFLOPS	184.6TOPS		300W
MI210	2022-03-22^[8]	CDNA 2	6 nm	104	64 GB	HBM2e	1600			181TFLOPS		22.6TFLOPS	45.3TFLOPS	22.6TFLOPS	45.3TFLOPS	181TOPS		300W
MI250	2021-11-08^[9]			208	128 GB		3200		OAM	362.1TFLOPS		45.3TFLOPS	90.5TFLOPS	45.3TFLOPS	90.5TFLOPS	362.1TOPS		560W
MI250X	2021-11-08^[9]			220	128 GB		3200		OAM	383TFLOPS		47.92TFLOPS	95.7TFLOPS	47.9TFLOPS	95.7TFLOPS	383TOPS		560W
MI300A	2023-12-06^[10]	CDNA 3	6 & 5 nm	228	128 GB	HBM3	5300	5.0	APU SH5 소켓	980.6TFLOPS 1961.2TFLOPS (with Sparsity)		122.6TFLOPS		61.3TFLOPS	122.6TFLOPS	1961.2TOPS 3922.3TOPS (with Sparsity)		550W 760W (with liquid cooling)
MI300X	2023-12-06^[10]			304	192 GB	HBM3	5300		OAM	1307.4TFLOPS 2614.9TFLOPS (with Sparsity)		163.4TFLOPS		81.7TFLOPS	163.4TFLOPS	2614.9TOPS 5229.8TOPS (with Sparsity)	rowspan="2" \|	750W
MI325X	2024-06-02^[11]			304	288 GB	HBM3e	6000		OAM	1307.4TFLOPS 2614.9TFLOPS (with Sparsity)		163.4TFLOPS		81.7TFLOPS	163.4TFLOPS	2614.9TOPS 5229.8TOPS (with Sparsity)		750W

두 개의 장갑을 낀 손이 AMD 라데온 인스팅트 MI50 카드를 들고 있다. 배경은 흐릿하다. — AMD 라데온 인스팅트 MI50 카드의 윗면

2. 1. MI6

MI6는 수동 냉각(패시브 쿨링) 방식의 16 GB GDDR5 메모리를 탑재하고 있으며, 150 W 미만의 TDP를 갖는 폴라리스 10 기반 카드이다.^[64] 5.7 TFLOPS (FP16 및 FP32) 성능과 358 GFLOPS의 최고 배정밀도(FP64) 연산 성능을 갖춘 MI6는 신경망 훈련보다는 주로 추론에 사용될 것으로 예상된다.^[14]^[66]

AMD 인스팅트 GPU 세대
가속기	출시일	아키텍처	리소그래피	컴퓨트 유닛	메모리 크기	메모리 유형	메모리 대역폭(GB/s)	PCIe 지원	폼 팩터	FP16	BF16	FP32	FP32 매트릭스	FP64 성능	FP64 매트릭스	INT8	INT4	TBP
MI6	2016-12-12^[6]	GCN 4	14 nm	36	16 GB	GDDR5	224	3.0	PCIe	5.7 TFLOPS	N/A	5.7 TFLOPS	N/A	358 GFLOPS	N/A	N/A	N/A	150 W

2. 2. MI8

MI8은 피지(Fiji) 기반의 카드로서, R9 나노와 유사하며, TDP는 175W 미만으로 짐작된다.^[64] 4GB의 고대역 메모리를 갖추고 있다. 최고 배정밀(FP64) 연산 성능은 512 GFLOPS이다.^[67]

AMD 인스팅트 GPU 세대
가속기	출시일	아키텍처	리소그래피	컴퓨트 유닛	메모리 크기	메모리 유형	메모리 대역폭(GB/s)	PCIe 지원	폼 팩터	FP16 성능	BF16 성능	FP32 성능	FP32 매트릭스 성능	FP64 성능	FP64 매트릭스 성능	INT8 성능	INT4 성능	TBP
MI8	2016-12-12^[6]	GCN 3	28 nm	64	4 GB	HBM	512	3.0	PCIe	8.2 TFLOPS	N/A	8.2 TFLOPS	N/A	512 GFLOPS	N/A	N/A	N/A	175W

2. 3. MI25

MI25는 베가 아키텍처 기반의 가속기이다. 16GB의 HBM2 메모리를 탑재하고 있다. FP32 연산 성능은 12.3 TFLOPS이며, FP16 연산 성능은 24.6 TFLOPS로, 낮은 정밀도의 연산에서 더 높은 성능을 제공한다. 패시브 쿨링(수동 냉각)을 사용할 경우 300W 미만의 전력을 소비한다. 또한, MI25는 768 GFLOPS의 최고 배정밀도(FP64) 성능을 제공한다.^[68]

AMD 인스팅트 GPU 세대
가속기	출시일	아키텍처	리소그래피	컴퓨트 유닛	메모리 크기	메모리 유형	대역폭(GB/s)	PCIe 지원	폼 팩터	FP16	BF16	FP32	FP32 매트릭스	FP64	FP64 매트릭스	INT8	INT4	TBP
MI25	2016-12-12^[6]	GCN 5	14 nm	64	16 GB	HBM2	484	3.0	PCIe	26.4 TFLOPS	N/A	12.3 TFLOPS	N/A	768 GFLOPS	N/A	N/A	N/A	300 W

2. 4. MI50

MI50은 2018년 11월 6일에 출시되었으며, 베가 20 아키텍처를 기반으로 7nm 공정으로 제조되었다.^[7] 60개의 컴퓨트 유닛을 가지고 있으며, 16GB 또는 32GB의 HBM2 메모리를 탑재하고 최대 1024 GB/s의 대역폭을 제공한다. PCIe 4.0을 지원하며, 폼 팩터는 PCIe이다. FP16, FP32, FP64, INT8 연산에서 각각 26.5 TFLOPS, 13.3 TFLOPS, 6.6 TFLOPS, 53 TOPS의 성능을 제공한다. TBP는 300W이다.

AMD 인스팅트 MI50 성능
처리 능력	FP16	FP32	FP64	INT8
성능	26.5 TFLOPS	13.3 TFLOPS	6.6 TFLOPS	53 TOPS

2. 5. MI60

MI60은 2018년 11월 6일에 출시되었으며,^[7] 7nm 공정의 베가 20 아키텍처를 기반으로 한다. MI50과 비교했을 때, MI60은 64개의 컴퓨트 유닛(CU)을 가지고 있어 더 많은 컴퓨팅 유닛이 활성화되어 성능이 향상되었다. 32GB의 HBM2 메모리를 탑재하고 있으며, 메모리 대역폭은 1024GB/s이다.^[7] PCIe 4.0을 지원하며, 폼 팩터는 PCIe이다. TBP는 300W이다.

MI60의 성능은 다음과 같다.

MI60 성능
FP16	FP32	FP64	INT8
29.5 TFLOPS	14.7 TFLOPS	7.4 TFLOPS	59 TOPS

2. 6. MI100

MI100은 2020년 11월 16일에 출시된 가속기로, CDNA 아키텍처를 기반으로 하며 7nm 공정으로 제조되었다.^[7] 32GB의 HBM2 메모리를 탑재하고 있으며, 1200GB/s의 대역폭을 제공한다. PCIe 4.0을 지원하며, 폼 팩터는 PCIe이다.

MI100은 AI 및 HPC 워크로드에서 높은 성능을 제공하기 위해 행렬 연산 가속 기능을 탑재했다. FP16, BF16, FP32, FP32 매트릭스, FP64, FP64 매트릭스, INT8, INT4 등 다양한 데이터 형식에 대한 연산 성능은 다음과 같다.

MI100 처리 능력
데이터 형식	처리 능력 (TFLOPS/TOPS)
FP16	184.6
BF16	92.3
FP32	23.1
FP32 매트릭스	46.1
FP64	11.5
FP64 매트릭스	46.1
INT8	184.6
INT4	N/A

MI100의 TBP는 300W이다.

2. 7. MI200 시리즈

MI200 시리즈는 CDNA 2 아키텍처를 기반으로 하며, TSMC의 6nm 공정으로 제조되었다.^[8]^[9] MI200 시리즈는 MI210, MI250, MI250X 모델을 포함한다.

AMD 인스팅트 MI200 시리즈 GPU
가속기	출시일	컴퓨트 유닛	메모리 크기	메모리 유형	메모리 대역폭 (GB/s)	폼 팩터	FP16/BF16 (TFLOPS)	FP32 매트릭스 (TFLOPS)	FP64 성능 (TFLOPS)	FP64 매트릭스 (TFLOPS)	INT8/INT4 (TOPS)	TBP (W)
MI210	2022-03-22^[8]	104	64 GB	HBM2e	1600	PCIe	181	22.6	45.3	22.6	45.3	181	300
MI250	2021-11-08^[9]	208	128 GB	HBM2e	3200	OAM	362.1	45.3	90.5	45.3	90.5	362.1	560
MI250X	2021-11-08^[9]	220	128 GB	HBM2e	3200	OAM	383	47.92	95.7	47.9	95.7	383	560

2. 8. MI300 시리즈

MI300A 및 MI300X는 CDNA 3 아키텍처를 사용하는 데이터 센터 가속기로, 고성능 컴퓨팅(HPC) 및 생성형 인공지능(AI) 워크로드를 위해 최적화되었다. CDNA 3 아키텍처는 TSMC의 CoWoS(chip-on-wafer-on-substrate) 및 InFO(integrated fan-out)와 같은 첨단 패키징 기술을 활용하여 단일 인터포저에 여러 칩렛을 결합하는 확장 가능한 칩렛 설계를 특징으로 한다. 칩렛은 AMD의 인피니티 패브릭(Infinity Fabric)으로 상호 연결되어 칩렛과 호스트 시스템 간의 고속, 저지연 데이터 전송을 가능하게 한다.

MI300 시리즈는 2023년 12월 6일에 출시되었다.^[10]

AMD 인스팅트 MI300 시리즈
가속기	출시일	리소그래피	컴퓨트 유닛	메모리			PCIe 지원	폼 팩터	처리 능력								TBP
가속기	출시일	리소그래피	컴퓨트 유닛	크기	유형	대역폭(GB/s)	PCIe 지원	폼 팩터	FP16	BF16	FP32	FP32 매트릭스	FP64 성능	FP64 매트릭스	INT8	INT4	TBP
MI300A	2023-12-06^[10]	5nm 및 6nm	228	128GB	HBM3	5300	5.0	APU SH5 소켓	980.6 TFLOPS 1961.2 TFLOPS (with Sparsity)		122.6 TFLOPS		61.3 TFLOPS	122.6 TFLOPS	1961.2 TOPS 3922.3 TOPS (with Sparsity)	N/A	550W 760W (with liquid cooling)
MI300X	2023-12-06^[10]		304	192GB	HBM3	5300		OAM	1307.4 TFLOPS 2614.9 TFLOPS (with Sparsity)		163.4 TFLOPS		81.7 TFLOPS	163.4 TFLOPS	2614.9 TOPS 5229.8 TOPS (with Sparsity)	N/A	750W
MI325X	2024-06-02^[11]		288GB	HBM3e	6000			OAM	1307.4 TFLOPS 2614.9 TFLOPS (with Sparsity)		163.4 TFLOPS		81.7 TFLOPS	163.4 TFLOPS	2614.9 TOPS 5229.8 TOPS (with Sparsity)	N/A	750W

2. 8. 1. MI300A

MI300A는 24개의 Zen 4 CPU 코어와 4개의 CDNA 3 GPU 코어를 통합한 가속 처리 장치(APU)이다. GPU 섹션에는 총 228개의 CU와 128GB의 HBM3 메모리를 갖추고 있다.^[1] Zen 4 CPU 코어는 5nm 공정 노드를 기반으로 하며 x86-64 명령어 집합, AVX-512 및 BFloat16 확장을 지원한다.^[1] Zen 4 CPU 코어는 범용 애플리케이션을 실행하고 GPU 코어에 대한 호스트 측 계산을 제공할 수 있다.^[1]

MI300A는 FP64에서 61.3TFLOPS(FP64 행렬에서 122.6TFLOPS)의 피크 성능과 FP16에서 980.6TFLOPS(희소성을 활용하면 1961.2TFLOPS)의 성능을 가지며, 5.3TB/s의 메모리 대역폭을 지원한다.^[1] PCIe 5.0 및 CXL 2.0 인터페이스를 지원하여 이기종 시스템의 다른 장치 및 가속기와 통신할 수 있다.^[1]

2. 8. 2. MI300X

MI300X는 CPU 코어를 추가 GPU 코어와 HBM 메모리로 대체하여 총 304개의 CDNA 3 CU(CU당 64개 코어)와 192GB의 HBM3 메모리를 갖춘 생성형 인공지능(AI) 전용 가속기이다. MI300X는 자연어 처리, 컴퓨터 비전, 딥 러닝과 같은 생성형 AI 애플리케이션을 가속화하도록 설계되었다. MI300X는 TP32에서 653.7TFLOPS(희소성을 활용하면 1307.4TFLOPS)의 피크 성능과 FP16에서 1307.4TFLOPS(희소성을 활용하면 2614.9TFLOPS)의 성능을 가지며, 5.3TB/s의 메모리 대역폭을 지원한다. MI300X는 PCIe 5.0 및 CXL 2.0 인터페이스뿐만 아니라 AMD 하드웨어에서 생성형 AI 애플리케이션을 개발하고 배포하기 위한 통합 프로그래밍 모델과 도구를 제공하는 AMD의 ROCm 소프트웨어 스택도 지원한다.^[1]

3. 소프트웨어

AMD 인스팅트는 ROCm(Radeon Open Compute platform) 소프트웨어 스택을 통해 지원된다.

3. 1. ROCm

ROCm은 2022년 기준으로 라데온 오픈 컴퓨트 메타 프로젝트로 재편성되었다.

3. 2. MxGPU

MI6, MI8, MI25 제품들은 모두 AMD의 MxGPU 가상화 기술을 지원하여, 여러 사용자가 GPU 리소스를 공유할 수 있게 해준다.^[64]^[1]^[20]

3. 3. MIOpen

MIOpen은 딥 러닝의 GPU 가속화를 지원하는 AMD의 딥 러닝 라이브러리이다.^[64] 엔비디아의 CUDA 라이브러리의 딥 러닝 부분과 경쟁하기 위해 고안되었다. Theano, Caffe, 텐서플로, MXNet, The Microsoft Cognitive Toolkit, Torch, Chainer와 같은 딥 러닝 프레임워크를 지원한다. 프로그래밍은 OpenCL과 파이썬을 지원하며, 이 외에 Portability and Heterogeneous Compute Compiler를 위해 AMD의 다기종 연산 인터페이스를 통한 CUDA의 컴파일을 지원한다.^[64]

4. 칩셋 표

(GFLOPS)TDP (W)API 지원 (버전)코어 (MHz)부스트 (MHz)메모리 (MT/s)픽셀 (GP/s)
(부스트)텍스처 (GT/s)
(부스트)크기 (GiB)버스 너비 (비트)버스 유형대역 (GB/s)단정밀도
(부스트)배정밀도반정도
(부스트)OpenCLRadeon Instinct MI6TBAPolaris 10GCN 4세대145.7232PCIe 3.0 x162304:144:?:3616256GDDR522458003585800150Radeon Instinct MI8Fiji XTGCN 3세대288.95964096:256:?:6444096HBM51282005128200175Radeon Instinct MI25베가 10GCN 5세대1412.54864096:256:?:64162048HBM24841230076824600300

모델 (코드명)	출시	아키텍처 공정	트랜지스터 다이 크기	코어		필레이트		처리 능력 (TFLOPS)			메모리				TBP	버스 인터페이스
모델 (코드명)	출시	아키텍처 공정	트랜지스터 다이 크기	구성	클럭 (MHz)	텍스처 (GT/s)	픽셀 (GP/s)	반정밀도	단정밀도	배정밀도	크기 (GB)	버스 유형 너비	대역폭 (GB/s)	클럭 (MT/s)	TBP	버스 인터페이스
Radeon Instinct MI6 (Polaris 10)	rowspan="3" \|	GCN 4 GloFo 14LP	232 mm²	2304:144:32 36 CU	1120 1233	161.3 177.6	35.84 39.46	5.161 5.682	5.161 5.682	0.323 0.355	16	GDDR5 256비트	224	7000	150 W	PCIe 3.0 ×16
Radeon Instinct MI8 (Fiji)	GCN 3 TSMC 28 nm	596 mm²	4096:256:64 64 CU	1000	256.0	64.00	8.192	8.192	0.512	4	HBM 4096비트	512	1000	175 W
Radeon Instinct MI25 (Vega 10)	GCN 5 GloFo 14LP	510 mm²	4096:256:64 64 CU	1400 1500	358.4 384.0	89.60 96.00	22.94 24.58	11.47 12.29	0.717 0.768	16	HBM2 2048비트	484	1890	300 W
Radeon Instinct MI50 (Vega 20)	rowspan="2" \|	GCN 5 TSMC N7	331 mm²	3840:240:64 60 CU	1450 1725	348.0 414.0	92.80 110.4	22.27 26.50	11.14 13.25	5.568 6.624	16 32	HBM2 4096비트	1024		2000	PCIe 4.0 ×16
Radeon Instinct MI60 (Vega 20)	4096:256:64 64 CU	GCN 5 TSMC N7	331 mm²	1500 1800	384.0 460.8	96.00 115.2	24.58 29.49	12.29 14.75	6.144 7.373	32			1024		2000
AMD Instinct MI100 (Arcturus)		CDNA TSMC N7	750 mm²	7680:480:- 120 CU	1000 1502	480.0 721.0		122.9 184.6	15.36 23.07	32	7.680 11.54		1228.8		2400
AMD Instinct MI210 (Aldebaran)		CDNA 2 TSMC N6	28 x 10⁹ ~770 mm²	6656:416:- 104 CU (1 × GCD)	1000 1700	416.0 707.2	106.5 181.0	13.31 22.63	13.31 22.63	64	HBM2E 4096비트	1638.4	3200
AMD Instinct MI250 (Aldebaran)	rowspan="2" \|		58 x 10⁹ 1540 mm²	13312:832:- 208 CU (2 × GCD)		832.0 1414	213.0 362.1	26.62 45.26	26.62 45.26	2 × 64	HBM2E 2 × 4096비트	2 × 1638.4		500 W 560 W (최대)
AMD Instinct MI250X (Aldebaran)	14080:880:- 220 CU (2 × GCD)		58 x 10⁹ 1540 mm²	880.0 1496		225.3 383.0	28.16 47.87	28.16 47.87		2 × 64	HBM2E 2 × 4096비트	2 × 1638.4		500 W 560 W (최대)
AMD Instinct MI300A (Antares)	rowspan="2" \|	CDNA 3 TSMC N5 & N6	146 x 10⁹ 1017 mm²	14592:912:- 228 CU (6 × XCD) (24 AMD Zen 4 x86 CPU 코어)	2100	912.0 1550.4	980.6 1961.2 (희소성 포함)	122.6	61.3 122.6 (FP64 행렬)	128	HBM3 8192비트	5300	5200	550 W 760 W (수냉)	PCIe 5.0 ×16
AMD Instinct MI300X (Aqua Vanjaram)	153 x 10⁹ 1017 mm²	CDNA 3 TSMC N5 & N6	19456:1216:- 304 CU (8 × XCD)	1216.0 2062.1	2100	1307.4 2614.9 (희소성 포함)	163.4	81.7 163.4 (FP64 행렬)	192	750 W	HBM3 8192비트	5300	5200		PCIe 5.0 ×16