암페어 (마이크로아키텍처)
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
암페어는 엔비디아의 마이크로아키텍처로, CUDA 연산 능력 8.0 및 3세대 텐서 코어를 지원하며, TSMC 7nm FinFET 공정 또는 삼성 8nm 공정을 사용한다. GA100, GA102, GA103, GA104, GA106, GA107, GA10B, GA10F 등 다양한 칩 종류가 있으며, 지포스 30 시리즈, 쿼드로, 테슬라, 테그라 SoC 제품군에 사용된다. A100 가속기는 2020년에 출시되었으며, 이전 세대 GPU보다 향상된 연산 능력과 디코딩 성능을 제공한다.
더 읽어볼만한 페이지
- 엔비디아 마이크로아키텍처 - 볼타 (마이크로아키텍처)
엔비디아의 볼타 마이크로아키텍처는 CUDA 컴퓨트 기능 7.0 지원, 정수 및 부동 소수점 연산 동시 실행, 12nm FinFET 공정, HBM2 및 NVLink 2.0을 통한 성능 향상, 딥 러닝을 위한 텐서 코어 도입을 특징으로 하며 Tegra Xavier SoC, Tesla V100 등에 적용되어 GPGPU 연산 성능을 향상시키고 딥 러닝 연구 개발에 기여했다. - 엔비디아 마이크로아키텍처 - 튜링 (마이크로아키텍처)
튜링은 엔비디아가 개발한 마이크로아키텍처로, 실시간 광선 추적을 위해 쿠다 코어, 레이 트레이싱 코어, 텐서 코어 등을 결합하여 그래픽 성능을 향상시킨다. - 그래픽스 마이크로아키텍처 - 인텔 Xe
인텔 Xe는 저전력부터 고성능 컴퓨팅까지 다양한 시장을 목표로 하는 인텔의 GPU 아키텍처 제품군으로, Xe-LP, Xe-HPG, Xe-HP, Xe-HPC 등의 하위 아키텍처를 가지며 외장 그래픽 카드인 인텔 아크 시리즈와 내장 그래픽, 데이터 센터용 GPU 등에 활용된다. - 그래픽스 마이크로아키텍처 - 테라스케일 (마이크로아키텍처)
테라스케일은 AMD가 개발한 GPU 마이크로아키텍처로, 셰이더 처리량 증가를 위해 통합 셰이더 모델을 사용하며, VLIW 아키텍처를 기반으로 라데온 HD 2000, 3000, 4000, 5000, 6900 시리즈에 적용되었다가 그래픽스 코어 넥스트 아키텍처로 대체되었다.
암페어 (마이크로아키텍처) | |
---|---|
일반 정보 | |
![]() | |
출시일 | 2020년 5월 14일 |
단종일 | 알 수 없음 |
판매자 | 엔비디아 |
설계 회사 | 엔비디아 |
제조사 | TSMC, 삼성전자 |
공정 | TSMC N7 (전문가용), 삼성 8N (소비자용) |
코드명 | GA10x |
제품 | |
데스크톱 | GeForce RTX 30 시리즈 |
고성능 데스크톱 | RTX A 시리즈 |
서버 | A100 |
API 지원 | |
DirectX 버전 | DirectX 12 Ultimate (Feature Level 12_2) |
Direct3D 버전 | Direct3D 12.0 |
Shader Model 버전 | Shader Model 6.8 |
OpenCL 버전 | OpenCL 3.0 |
OpenGL 버전 | OpenGL 4.6 |
CUDA 버전 | Compute Capability 8.6 |
Vulkan 버전 | Vulkan 1.3 |
메모리 | |
메모리 지원 | GDDR6 GDDR6X HBM2 |
L1 캐시 | 192KB/SM (전문가용), 128KB/SM (소비자용) |
L2 캐시 | 2MB ~ 6MB |
PCIe 지원 | PCIe 4.0 |
인코딩/디코딩 | |
인코딩 코덱 | H.264 H.265 |
디코딩 코덱 | H.264 H.265 AV1 |
색상 심도 | 8비트 10비트 |
인코더 | NVENC |
디스플레이 출력 | |
디스플레이 출력 | DisplayPort 1.4a HDMI 2.1 |
기타 | |
이전 세대 | Turing (소비자용), Volta (전문가용) |
다음 세대 | Ada Lovelace (소비자용), Hopper (데이터센터) |
지원 상태 | 지원됨 |
2. 자세히
암페어 아키텍처는 이전 세대 대비 다음과 같은 구조적 개선이 이루어졌다.[36][37][40]
- CUDA 연산 능력 8.0 (A100) 및 8.6 (지포스 30 시리즈)
- A100의 TSMC의 7 nm FinFET 공정
- 지포스 30 시리즈의 삼성전자의 8 nm 공정 (8N) 커스텀 버전
- FP16, bfloat16, TensorFloat-32(TF32) 및 FP64 지원과 희소성 가속을 갖춘 3세대 텐서 코어. 개별 텐서 코어는 이전 텐서 코어 세대에 비해 초당 256 FP16 FMA 연산 4배(GA100만 해당, GA10x에 2배)를 가지고 있다. 텐서 코어 카운트는 SM 당 1회로 감소한다.
- 지포스 30 시리즈의 2세대 광선 추적 코어, 동시 광선 추적, 음영 처리 및 컴퓨팅
- A100 40GB 및 A100 80GB의 HBM2
- 지포스 RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti의 GDDR6X 메모리
- GA10x GPU에서 SM당 FP32 코어 2개
- 쌍당 50Gbit/s 처리량을 지원하는 NVLink 3.0
- SR-IOV를 지원하는 PCI 익스프레스 4.0 (SR-IOV는 A100에만 예약됨)
- 최대 7개의 인스턴스를 지원하는 A100의 다중 인스턴스 GPU 가상화 및 GPU 파티셔닝 기능
- AV1 하드웨어 디코딩이 포함된 지포스 30 시리즈의 퓨어비디오 하드웨어 비디오 디코딩 기능 세트 K 및 A100의 기능 세트 J
- A100용 5 NVDEC
- YUV420, YUV422, YUV444, YUV400, RGBA와 함께 새로운 하드웨어 기반 5코어 JPEG 디코딩 ('''NVJPG''')을 추가. 엔비디아 '''NVJPEG'''(JPEG 인코딩/디코딩을 위한 GPU 가속 라이브러리)가 아님
암페어 기반 A100 가속기는 2020년 5월 14일에 발표 및 출시되었다.[22] A100은 19.5 테라플롭스(FP32) 성능, 6912 FP32/INT32 CUDA 코어, 3456 FP64 CUDA 코어, 40GB의 그래픽 메모리, 1.6TB/s의 그래픽 메모리 대역폭을 특징으로 한다.[21] A100 가속기는 처음에는 8개의 A100을 포함하는 3세대 DGX 서버에서만 사용할 수 있었다.[22] DGX A100에는 15TB의 PCIe 4세대 NVMe 스토리지,[21] 2개의 64코어 AMD Rome 7742 CPU, 1TB의 RAM, Mellanox 기반 HDR InfiniBand 상호 연결도 포함되어 있다. DGX A100의 초기 가격은 199000USD였다.[22]
DGX에 사용된 가속기를 비교하면 다음과 같다.[23][24][25]
모델 | 아키텍처 | 소켓 | FP32 CUDA 코어 | FP64 코어 (텐서 제외) | 혼합 INT32/FP32 코어 | INT32 코어 | 부스트 클럭 | 메모리 클럭 | 메모리 버스 폭 | 메모리 대역폭 | VRAM | 단정밀도 (FP32) | 배정밀도 (FP64) | INT8 (비텐서) | INT8 밀집 텐서 | INT32 | FP4 밀집 텐서 | FP16 | FP16 밀집 텐서 | bfloat16 밀집 텐서 | 텐서플로트-32 (TF32) 밀집 텐서 | FP64 밀집 텐서 | 상호 연결 (NVLink) | GPU | L1 캐시 | L2 캐시 | TDP | 다이 크기 | 트랜지스터 수 | 공정 | 출시 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A100 80GB | 암페어 | SXM4 | 6912 | 3456 | 6912 | N/A | 1410 MHz | 3.2 Gbit/s HBM2e | 5120-bit | 1.52 TB/sec | 80 GB HBM2e | 19.5 TFLOPS | 9.7 TFLOPS | N/A | 624 TOPS | 19.5 TOPS | N/A | 78 TFLOPS | 312 TFLOPS | 312 TFLOPS | 156 TFLOPS | 19.5 TFLOPS | 600 GB/sec | GA100 | 20736 KB (192 KB × 108) | 40960 KB | 400 W | 826mm2 | 54.2 B | TSMC N7 | 2020년 1분기 |
A100 40GB | 암페어 | SXM4 | 6912 | 3456 | 6912 | N/A | 1410 MHz | 2.4 Gbit/s HBM2 | 5120-bit | 1.52 TB/sec | 40 GB HBM2 | 19.5 TFLOPS | 9.7 TFLOPS | N/A | 624 TOPS | 19.5 TOPS | N/A | 78 TFLOPS | 312 TFLOPS | 312 TFLOPS | 156 TFLOPS | 19.5 TFLOPS | 600 GB/sec | GA100 | 20736 KB (192 KB × 108) | 40960 KB | 400 W | 826mm2 | 54.2 B | TSMC N7 |
2. 1. 핵심 기술
- CUDA 연산 능력 8.0 (A100) 및 8.6 (지포스 30 시리즈)[36]
- A100의 TSMC의 7 nm FinFET 공정
- 지포스 30 시리즈의 삼성전자의 8 nm 공정 (8N) 커스텀 버전[37]
- FP16, bfloat16, TensorFloat-32(TF32) 및 FP64가 지원되는 3세대 텐서 코어 및 희소성 가속 지원.[40] 개별 텐서 코어는 이전 텐서 코어 세대에 비해 초당 256 FP16 FMA 연산 4배(GA100만 해당, GA10x에 2배)를 가지고 있다. 텐서 코어 카운트는 SM 당 1회로 감소한다.
- 지포스 30 시리즈의 2세대 광선 추적 코어, 동시 광선 추적, 음영 처리 및 컴퓨팅
- A100 40GB 및 A100 80GB의 HBM2
- 지포스 RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti의 GDDR6X 메모리
- GA10x GPU에서 SM당 FP32 코어 2개
- 쌍당 50Gbit/s 처리량을 지원하는 NVLink 3.0
- SR-IOV를 지원하는 PCI 익스프레스 4.0 (SR-IOV는 A100에만 예약됨)
- 최대 7개의 인스턴스를 지원하는 A100의 다중 인스턴스 GPU 가상화 및 GPU 파티셔닝 기능
- AV1 하드웨어 디코딩이 포함된 지포스 30 시리즈의 퓨어비디오 하드웨어 비디오 디코딩 기능 세트 K 및 A100의 기능 세트 J
- A100용 5 NVDEC
- YUV420, YUV422, YUV444, YUV400, RGBA와 함께 새로운 하드웨어 기반 5코어 JPEG 디코딩 ('''NVJPG''')을 추가. 엔비디아 '''NVJPEG'''(JPEG 인코딩/디코딩을 위한 GPU 가속 라이브러리)가 아님
2. 2. 칩 종류
암페어 마이크로아키텍처 기반 칩의 종류는 다음과 같다.[14][15][16][17][18][19][20]다이 | GA100 | GA102 | GA103 | GA104 | GA106 | GA107 | GA10B | GA10F |
---|---|---|---|---|---|---|---|---|
다이 크기 | 826mm2 | 628mm2 | 496mm2 | 392mm2 | 276mm2 | 200mm2 | 448mm2 | ? |
트랜지스터 | 542억 개 | 283억 개 | 220억 개 | 174억 개 | 120억 개 | 87억 개 | 210억 개 | ? |
트랜지스터 밀도 | 65.6 MTr/mm2 | 45.1 MTr/mm2 | 44.4 MTr/mm2 | 44.4 MTr/mm2 | 43.5 MTr/mm2 | 43.5 MTr/mm2 | 46.9 MTr/mm2 | ? |
그래픽 처리 클러스터 | 8 | 7 | 6 | 6 | 3 | 2 | 2 | 1 |
스트리밍 멀티프로세서 | 128 | 84 | 60 | 48 | 30 | 20 | 16 | 12 |
CUDA 코어 | 12288 | 10752 | 7680 | 6144 | 3840 | 2560 | 2048 | 1536 |
텍스처 매핑 유닛 | 512 | 336 | 240 | 192 | 120 | 80 | 64 | 48 |
렌더 출력 유닛 | 192 | 112 | 96 | 96 | 48 | 32 | 32 | 16 |
텐서 코어 | 512 | 336 | 240 | 192 | 120 | 80 | 64 | 48 |
RT 코어 | N/A | 84 | 60 | 48 | 30 | 20 | 8 | 12 |
L1 캐시 | 24MB | 10.5MB | 7.5MB | 6MB | 3MB | 2.5MB | 3MB | 1.5MB |
192KB per SM | 128KB per SM | 192KB per SM | 128KB per SM | |||||
L2 캐시 | 40MB | 6MB | 4MB | 4MB | 3MB | 2MB | 4MB | ? |
2. 3. 연산 능력 및 디코딩 성능 비교
암페어 아키텍처는 다음과 같은 연산 능력 및 디코딩 성능을 제공한다.[36]GPU 기능 | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 |
---|---|---|---|
GPU 코드네임 | GP100 | GV100 | GA100 |
GPU 아키텍처 | NVIDIA 파스칼 | NVIDIA 볼타 | NVIDIA 암페어 |
CUDA 연산 능력 | 6.0 | 7.0 | 8.0 |
스레드 / 워프 | 32 | 32 | 32 |
최대 워프 / SM | 64 | 64 | 64 |
최대 스레드 / SM | 2048 | 2048 | 2048 |
최대 스레드 블록 / SM | 32 | 32 | 32 |
최대 32비트 레지스터 / SM | 65536 | 65536 | 65536 |
최대 레지스터 / block | 65536 | 65536 | 65536 |
최대 레지스터 / 스레드 | 255 | 255 | 255 |
최대 스레드 블록 크기 | 1024 | 1024 | 1024 |
FP32 코어 / SM | 64 | 64 | 64 (+64 혼합 INT/FP32 코어) |
SM 레지스터 대 FP32 코어 비율 | 1024 | 1024 | 1024 |
공유 메모리 크기 / SM | 64 KB | 최대 96 KB까지 설정 가능 | 최대 164 KB까지 설정 가능 |
rowspan="2" | | 지원되는 CUDA 코어 정밀도 | 지원되는 텐서 코어 정밀도 | ||||||||||||||
FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Nvidia Tesla P4 | ||||||||||||||||
Nvidia P100 | ||||||||||||||||
Nvidia Volta | ||||||||||||||||
Nvidia Turing | ||||||||||||||||
NVIDIA A100 |
범례:
- FPnn: nn 비트 부동 소수점
- INTn: n 비트 정수
- INT1: 바이너리
- TF32: 텐서플로트32
- BF16: bfloat16
동시 스트림 | H.264 디코딩 (1080p30) | H.265 (HEVC) 디코딩 (1080p30) | VP9 디코딩 (1080p30) |
---|---|---|---|
V100 | 16 | 22 | 22 |
NVIDIA A100 | 75 | 157 | 108 |
암페어 기반 A100 가속기는 2020년 5월 14일에 발표 및 출시되었다.[40] A100은 19.5 테라플롭스의 FP32 성능, 6912개의 CUDA 코어, 40GB의 그래픽 메모리, 1.6TB/s의 그래픽 메모리 대역폭을 가지고 있다.[39] A100 가속기는 처음에 8대의 A100을 포함한 3세대 DGX 서버에서만 사용할 수 있었다.[40]
RTX A2000
3. A100 가속기와 DGX A100
DGX A100에는 15TB의 PCIe Gen 4 NVMe 스토리지,[39] 2개의 64코어 AMD Rome 7742 CPU, 1TB의 RAM 및 멜라녹스 기반 HDR InfiniBand 인터커넥트가 포함되어 있다. DGX A100의 최초 가격은 199000USD였다.[40]
DGX에 사용된 가속기 비교:[23][24][25]모델 아키텍처 FP32
CUDA
코어메모리
대역폭VRAM 단정밀도
(FP32)출시 A100 80GB 암페어 6912 1.52TB/sec 80 GB HBM2e 19.5 TFLOPS 2020년 1분기 A100 40GB 암페어 6912 1.52TB/sec 40 GB HBM2 19.5 TFLOPS
4. 암페어 기반 제품
RTX A3000 (모바일)
RTX A4000 (모바일)
RTX A4000
RTX A5000 (모바일)RTX A5500 (모바일) RTX A4500
RTX A5000
RTX A5500
RTX A6000Nvidia 데이터 센터 GPU Nvidia A2
Nvidia A16Nvidia A10
Nvidia A40Nvidia A30
Nvidia A100Tegra SoC AGX Orin
Orin NX
Orin Nano