암페어 (마이크로아키텍처)

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 자세히
3. A100 가속기와 DGX A100
4. 암페어 기반 제품
참조

1. 개요

암페어는 엔비디아의 마이크로아키텍처로, CUDA 연산 능력 8.0 및 3세대 텐서 코어를 지원하며, TSMC 7nm FinFET 공정 또는 삼성 8nm 공정을 사용한다. GA100, GA102, GA103, GA104, GA106, GA107, GA10B, GA10F 등 다양한 칩 종류가 있으며, 지포스 30 시리즈, 쿼드로, 테슬라, 테그라 SoC 제품군에 사용된다. A100 가속기는 2020년에 출시되었으며, 이전 세대 GPU보다 향상된 연산 능력과 디코딩 성능을 제공한다.

더 읽어볼만한 페이지

엔비디아 마이크로아키텍처 - 볼타 (마이크로아키텍처)
엔비디아의 볼타 마이크로아키텍처는 CUDA 컴퓨트 기능 7.0 지원, 정수 및 부동 소수점 연산 동시 실행, 12nm FinFET 공정, HBM2 및 NVLink 2.0을 통한 성능 향상, 딥 러닝을 위한 텐서 코어 도입을 특징으로 하며 Tegra Xavier SoC, Tesla V100 등에 적용되어 GPGPU 연산 성능을 향상시키고 딥 러닝 연구 개발에 기여했다.
엔비디아 마이크로아키텍처 - 튜링 (마이크로아키텍처)
튜링은 엔비디아가 개발한 마이크로아키텍처로, 실시간 광선 추적을 위해 쿠다 코어, 레이 트레이싱 코어, 텐서 코어 등을 결합하여 그래픽 성능을 향상시킨다.
그래픽스 마이크로아키텍처 - 인텔 Xe
인텔 Xe는 저전력부터 고성능 컴퓨팅까지 다양한 시장을 목표로 하는 인텔의 GPU 아키텍처 제품군으로, Xe-LP, Xe-HPG, Xe-HP, Xe-HPC 등의 하위 아키텍처를 가지며 외장 그래픽 카드인 인텔 아크 시리즈와 내장 그래픽, 데이터 센터용 GPU 등에 활용된다.
그래픽스 마이크로아키텍처 - 테라스케일 (마이크로아키텍처)
테라스케일은 AMD가 개발한 GPU 마이크로아키텍처로, 셰이더 처리량 증가를 위해 통합 셰이더 모델을 사용하며, VLIW 아키텍처를 기반으로 라데온 HD 2000, 3000, 4000, 5000, 6900 시리즈에 적용되었다가 그래픽스 코어 넥스트 아키텍처로 대체되었다.

암페어 (마이크로아키텍처)
일반 정보
엔비디아 암페어 아키텍처 블록 다이어그램
출시일	2020년 5월 14일
단종일	알 수 없음
판매자	엔비디아
설계 회사	엔비디아
제조사	TSMC, 삼성전자
공정	TSMC N7 (전문가용), 삼성 8N (소비자용)
코드명	GA10x
제품
데스크톱	GeForce RTX 30 시리즈
고성능 데스크톱	RTX A 시리즈
서버	A100
API 지원
DirectX 버전	DirectX 12 Ultimate (Feature Level 12_2)
Direct3D 버전	Direct3D 12.0
Shader Model 버전	Shader Model 6.8
OpenCL 버전	OpenCL 3.0
OpenGL 버전	OpenGL 4.6
CUDA 버전	Compute Capability 8.6
Vulkan 버전	Vulkan 1.3
메모리
메모리 지원	GDDR6 GDDR6X HBM2
L1 캐시	192KB/SM (전문가용), 128KB/SM (소비자용)
L2 캐시	2MB ~ 6MB
PCIe 지원	PCIe 4.0
인코딩/디코딩
인코딩 코덱	H.264 H.265
디코딩 코덱	H.264 H.265 AV1
색상 심도	8비트 10비트
인코더	NVENC
디스플레이 출력
디스플레이 출력	DisplayPort 1.4a HDMI 2.1
기타
이전 세대	Turing (소비자용), Volta (전문가용)
다음 세대	Ada Lovelace (소비자용), Hopper (데이터센터)
지원 상태	지원됨

2. 자세히

암페어 아키텍처는 이전 세대 대비 다음과 같은 구조적 개선이 이루어졌다.^[36]^[37]^[40]

CUDA 연산 능력 8.0 (A100) 및 8.6 (지포스 30 시리즈)
A100의 TSMC의 7 nm FinFET 공정
지포스 30 시리즈의 삼성전자의 8 nm 공정 (8N) 커스텀 버전
FP16, bfloat16, TensorFloat-32(TF32) 및 FP64 지원과 희소성 가속을 갖춘 3세대 텐서 코어. 개별 텐서 코어는 이전 텐서 코어 세대에 비해 초당 256 FP16 FMA 연산 4배(GA100만 해당, GA10x에 2배)를 가지고 있다. 텐서 코어 카운트는 SM 당 1회로 감소한다.
지포스 30 시리즈의 2세대 광선 추적 코어, 동시 광선 추적, 음영 처리 및 컴퓨팅
A100 40GB 및 A100 80GB의 HBM2
지포스 RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti의 GDDR6X 메모리
GA10x GPU에서 SM당 FP32 코어 2개
쌍당 50Gbit/s 처리량을 지원하는 NVLink 3.0
SR-IOV를 지원하는 PCI 익스프레스 4.0 (SR-IOV는 A100에만 예약됨)
최대 7개의 인스턴스를 지원하는 A100의 다중 인스턴스 GPU 가상화 및 GPU 파티셔닝 기능
AV1 하드웨어 디코딩이 포함된 지포스 30 시리즈의 퓨어비디오 하드웨어 비디오 디코딩 기능 세트 K 및 A100의 기능 세트 J
A100용 5 NVDEC
YUV420, YUV422, YUV444, YUV400, RGBA와 함께 새로운 하드웨어 기반 5코어 JPEG 디코딩 ('''NVJPG''')을 추가. 엔비디아 '''NVJPEG'''(JPEG 인코딩/디코딩을 위한 GPU 가속 라이브러리)가 아님

암페어 기반 A100 가속기는 2020년 5월 14일에 발표 및 출시되었다.^[22] A100은 19.5 테라플롭스(FP32) 성능, 6912 FP32/INT32 CUDA 코어, 3456 FP64 CUDA 코어, 40GB의 그래픽 메모리, 1.6TB/s의 그래픽 메모리 대역폭을 특징으로 한다.^[21] A100 가속기는 처음에는 8개의 A100을 포함하는 3세대 DGX 서버에서만 사용할 수 있었다.^[22] DGX A100에는 15TB의 PCIe 4세대 NVMe 스토리지,^[21] 2개의 64코어 AMD Rome 7742 CPU, 1TB의 RAM, Mellanox 기반 HDR InfiniBand 상호 연결도 포함되어 있다. DGX A100의 초기 가격은 199000USD였다.^[22]

DGX에 사용된 가속기를 비교하면 다음과 같다.^[23]^[24]^[25]

모델	아키텍처	소켓	FP32 CUDA 코어	FP64 코어 (텐서 제외)	혼합 INT32/FP32 코어	INT32 코어	부스트 클럭	메모리 클럭	메모리 버스 폭	메모리 대역폭	VRAM	단정밀도 (FP32)	배정밀도 (FP64)	INT8 (비텐서)	INT8 밀집 텐서	INT32	FP4 밀집 텐서	FP16	FP16 밀집 텐서	bfloat16 밀집 텐서	텐서플로트-32 (TF32) 밀집 텐서	FP64 밀집 텐서	상호 연결 (NVLink)	GPU	L1 캐시	L2 캐시	TDP	다이 크기	트랜지스터 수	공정	출시
A100 80GB	암페어	SXM4	6912	3456	6912	N/A	1410 MHz	3.2 Gbit/s HBM2e	5120-bit	1.52 TB/sec	80 GB HBM2e	19.5 TFLOPS	9.7 TFLOPS	N/A	624 TOPS	19.5 TOPS	N/A	78 TFLOPS	312 TFLOPS	312 TFLOPS	156 TFLOPS	19.5 TFLOPS	600 GB/sec	GA100	20736 KB (192 KB × 108)	40960 KB	400 W	826mm²	54.2 B	TSMC N7	2020년 1분기
A100 40GB	암페어	SXM4	6912	3456	6912	N/A	1410 MHz	2.4 Gbit/s HBM2	5120-bit	1.52 TB/sec	40 GB HBM2	19.5 TFLOPS	9.7 TFLOPS	N/A	624 TOPS	19.5 TOPS	N/A	78 TFLOPS	312 TFLOPS	312 TFLOPS	156 TFLOPS	19.5 TFLOPS	600 GB/sec	GA100	20736 KB (192 KB × 108)	40960 KB	400 W	826mm²	54.2 B	TSMC N7	2020년 1분기

2. 1. 핵심 기술

CUDA 연산 능력 8.0 (A100) 및 8.6 (지포스 30 시리즈)^[36]
A100의 TSMC의 7 nm FinFET 공정
지포스 30 시리즈의 삼성전자의 8 nm 공정 (8N) 커스텀 버전^[37]
FP16, bfloat16, TensorFloat-32(TF32) 및 FP64가 지원되는 3세대 텐서 코어 및 희소성 가속 지원.^[40] 개별 텐서 코어는 이전 텐서 코어 세대에 비해 초당 256 FP16 FMA 연산 4배(GA100만 해당, GA10x에 2배)를 가지고 있다. 텐서 코어 카운트는 SM 당 1회로 감소한다.
지포스 30 시리즈의 2세대 광선 추적 코어, 동시 광선 추적, 음영 처리 및 컴퓨팅
A100 40GB 및 A100 80GB의 HBM2
지포스 RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti의 GDDR6X 메모리
GA10x GPU에서 SM당 FP32 코어 2개
쌍당 50Gbit/s 처리량을 지원하는 NVLink 3.0
SR-IOV를 지원하는 PCI 익스프레스 4.0 (SR-IOV는 A100에만 예약됨)
최대 7개의 인스턴스를 지원하는 A100의 다중 인스턴스 GPU 가상화 및 GPU 파티셔닝 기능
AV1 하드웨어 디코딩이 포함된 지포스 30 시리즈의 퓨어비디오 하드웨어 비디오 디코딩 기능 세트 K 및 A100의 기능 세트 J
A100용 5 NVDEC
YUV420, YUV422, YUV444, YUV400, RGBA와 함께 새로운 하드웨어 기반 5코어 JPEG 디코딩 ('''NVJPG''')을 추가. 엔비디아 '''NVJPEG'''(JPEG 인코딩/디코딩을 위한 GPU 가속 라이브러리)가 아님

2. 2. 칩 종류

암페어 마이크로아키텍처 기반 칩의 종류는 다음과 같다.^[14]^[15]^[16]^[17]^[18]^[19]^[20]

다이	GA100	GA102	GA103	GA104	GA106	GA107	GA10B	GA10F
다이 크기	826mm²	628mm²	496mm²	392mm²	276mm²	200mm²	448mm²	?
트랜지스터	542억 개	283억 개	220억 개	174억 개	120억 개	87억 개	210억 개	?
트랜지스터 밀도	65.6 MTr/mm²	45.1 MTr/mm²	44.4 MTr/mm²	44.4 MTr/mm²	43.5 MTr/mm²	43.5 MTr/mm²	46.9 MTr/mm²	?
그래픽 처리 클러스터	8	7	6	6	3	2	2	1
스트리밍 멀티프로세서	128	84	60	48	30	20	16	12
CUDA 코어	12288	10752	7680	6144	3840	2560	2048	1536
텍스처 매핑 유닛	512	336	240	192	120	80	64	48
렌더 출력 유닛	192	112	96	96	48	32	32	16
텐서 코어	512	336	240	192	120	80	64	48
RT 코어	N/A	84	60	48	30	20	8	12
L1 캐시	24MB	10.5MB	7.5MB	6MB	3MB	2.5MB	3MB	1.5MB
L1 캐시	192KB per SM	128KB per SM					192KB per SM	128KB per SM
L2 캐시	40MB	6MB	4MB	4MB	3MB	2MB	4MB	?

2. 3. 연산 능력 및 디코딩 성능 비교

암페어 아키텍처는 다음과 같은 연산 능력 및 디코딩 성능을 제공한다.^[36]

연산 능력 비교: GP100 vs GV100 vs GA100^[38]
GPU 기능	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100
GPU 코드네임	GP100	GV100	GA100
GPU 아키텍처	NVIDIA 파스칼	NVIDIA 볼타	NVIDIA 암페어
CUDA 연산 능력	6.0	7.0	8.0
스레드 / 워프	32	32	32
최대 워프 / SM	64	64	64
최대 스레드 / SM	2048	2048	2048
최대 스레드 블록 / SM	32	32	32
최대 32비트 레지스터 / SM	65536	65536	65536
최대 레지스터 / block	65536	65536	65536
최대 레지스터 / 스레드	255	255	255
최대 스레드 블록 크기	1024	1024	1024
FP32 코어 / SM	64	64	64 (+64 혼합 INT/FP32 코어)
SM 레지스터 대 FP32 코어 비율	1024	1024	1024
공유 메모리 크기 / SM	64 KB	최대 96 KB까지 설정 가능	최대 164 KB까지 설정 가능

정밀도 지원 매트릭스 비교^[12]^[13]
FP16	FP32	FP32
rowspan="2" \|	지원되는 CUDA 코어 정밀도	지원되는 텐서 코어 정밀도
Nvidia Tesla P4
Nvidia P100
Nvidia Volta
Nvidia Turing
NVIDIA A100

범례:

FPnn: nn 비트 부동 소수점
INTn: n 비트 정수
INT1: 바이너리
TF32: 텐서플로트32
BF16: bfloat16

디코딩 성능 비교
동시 스트림	H.264 디코딩 (1080p30)	H.265 (HEVC) 디코딩 (1080p30)	VP9 디코딩 (1080p30)
V100	16	22	22
NVIDIA A100	75	157	108

3. A100 가속기와 DGX A100

암페어 기반 A100 가속기는 2020년 5월 14일에 발표 및 출시되었다.^[40] A100은 19.5 테라플롭스의 FP32 성능, 6912개의 CUDA 코어, 40GB의 그래픽 메모리, 1.6TB/s의 그래픽 메모리 대역폭을 가지고 있다.^[39] A100 가속기는 처음에 8대의 A100을 포함한 3세대 DGX 서버에서만 사용할 수 있었다.^[40]

DGX A100에는 15TB의 PCIe Gen 4 NVMe 스토리지,^[39] 2개의 64코어 AMD Rome 7742 CPU, 1TB의 RAM 및 멜라녹스 기반 HDR InfiniBand 인터커넥트가 포함되어 있다. DGX A100의 최초 가격은 199000USD였다.^[40]

DGX에 사용된 가속기 비교:^[23]^[24]^[25]

모델	아키텍처	FP32 CUDA 코어	메모리 대역폭	VRAM	단정밀도 (FP32)	출시
A100 80GB	암페어	6912	1.52TB/sec	80 GB HBM2e	19.5 TFLOPS	2020년 1분기
A100 40GB	암페어	6912	1.52TB/sec	40 GB HBM2	19.5 TFLOPS	2020년 1분기

4. 암페어 기반 제품

RTX A2000RTX A3000 (모바일)
RTX A4000 (모바일)
RTX A4000
RTX A5000 (모바일)RTX A5500 (모바일)RTX A4500
RTX A5000
RTX A5500
RTX A6000Nvidia 데이터 센터 GPUNvidia A2
Nvidia A16Nvidia A10
Nvidia A40Nvidia A30
Nvidia A100Tegra SoCAGX Orin
Orin NX
Orin Nano

암페어 (마이크로아키텍처)

1. 개요

더 읽어볼만한 페이지

2. 자세히

2. 1. 핵심 기술

2. 2. 칩 종류

2. 3. 연산 능력 및 디코딩 성능 비교

3. A100 가속기와 DGX A100

4. 암페어 기반 제품

4. 1. 지포스 시리즈

4. 2. 쿼드로 시리즈

4. 3. 테슬라 시리즈

4. 4. 테그라 시스템 온 칩 (SoC)

참조

칩 종류	제품
GA107	RTX A1000 (모바일)
GA106	RTX A2000 (모바일), RTX A2000
GA104	RTX A3000 (모바일), RTX A4000 (모바일), RTX A4000, RTX A5000 (모바일)
GA103	RTX A5500 (모바일)
GA102	RTX A4500, RTX A5000, RTX A5500, RTX A6000

칩 종류	제품 목록
GA100	Nvidia A30, Nvidia A100, Nvidia A100 80GB
GA102	Nvidia A10, Nvidia A40
GA107	Nvidia A2, Nvidia A16