암페어 (마이크로아키텍처)
1. 개요
암페어는 엔비디아의 마이크로아키텍처로, CUDA 연산 능력 8.0 및 3세대 텐서 코어를 지원하며, TSMC 7nm FinFET 공정 또는 삼성 8nm 공정을 사용한다. GA100, GA102, GA103, GA104, GA106, GA107, GA10B, GA10F 등 다양한 칩 종류가 있으며, 지포스 30 시리즈, 쿼드로, 테슬라, 테그라 SoC 제품군에 사용된다. A100 가속기는 2020년에 출시되었으며, 이전 세대 GPU보다 향상된 연산 능력과 디코딩 성능을 제공한다.
이미지 준비중입니다.
| 출시일 | 2020년 5월 14일 |
|---|---|
| 단종일 | 알 수 없음 |
| 판매자 | 엔비디아 |
| 설계 회사 | 엔비디아 |
| 제조사 | TSMC, 삼성전자 |
| 공정 | TSMC N7 (전문가용), 삼성 8N (소비자용) |
| 코드명 | GA10x |
| 데스크톱 | GeForce RTX 30 시리즈 |
|---|---|
| 고성능 데스크톱 | RTX A 시리즈 |
| 서버 | A100 |
| DirectX 버전 | DirectX 12 Ultimate (Feature Level 12_2) |
|---|---|
| Direct3D 버전 | Direct3D 12.0 |
| Shader Model 버전 | Shader Model 6.8 |
| OpenCL 버전 | OpenCL 3.0 |
| OpenGL 버전 | OpenGL 4.6 |
| CUDA 버전 | Compute Capability 8.6 |
| Vulkan 버전 | Vulkan 1.3 |
| 메모리 지원 | GDDR6 GDDR6X HBM2 |
|---|---|
| L1 캐시 | 192KB/SM (전문가용), 128KB/SM (소비자용) |
| L2 캐시 | 2MB ~ 6MB |
| PCIe 지원 | PCIe 4.0 |
| 인코딩 코덱 | H.264 H.265 |
|---|---|
| 디코딩 코덱 | H.264 H.265 AV1 |
| 색상 심도 | 8비트 10비트 |
| 인코더 | NVENC |
| 디스플레이 출력 | DisplayPort 1.4a HDMI 2.1 |
|---|
| 이전 세대 | Turing (소비자용), Volta (전문가용) |
|---|---|
| 다음 세대 | Ada Lovelace (소비자용), Hopper (데이터센터) |
| 지원 상태 | 지원됨 |
-
엔비디아 마이크로아키텍처 -
볼타 (마이크로아키텍처)
엔비디아의 볼타 마이크로아키텍처는 CUDA 컴퓨트 기능 7.0 지원, 정수 및 부동 소수점 연산 동시 실행, 12nm FinFET 공정, HBM2 및 NVLink 2.0을 통한 성능 향상, 딥 러닝을 위한 텐서 코어 도입을 특징으로 하며 Tegra Xavier SoC, Tesla V100 등에 적용되어 GPGPU 연산 성능을 향상시키고 딥 러닝 연구 개발에 기여했다. -
엔비디아 마이크로아키텍처 -
튜링 (마이크로아키텍처)
튜링은 엔비디아가 개발한 마이크로아키텍처로, 실시간 광선 추적을 위해 쿠다 코어, 레이 트레이싱 코어, 텐서 코어 등을 결합하여 그래픽 성능을 향상시킨다. -
그래픽스 마이크로아키텍처 -
인텔 Xe
인텔 Xe는 저전력부터 고성능 컴퓨팅까지 다양한 시장을 목표로 하는 인텔의 GPU 아키텍처 제품군으로, Xe-LP, Xe-HPG, Xe-HP, Xe-HPC 등의 하위 아키텍처를 가지며 외장 그래픽 카드인 인텔 아크 시리즈와 내장 그래픽, 데이터 센터용 GPU 등에 활용된다. -
그래픽스 마이크로아키텍처 -
테라스케일 (마이크로아키텍처)
테라스케일은 AMD가 개발한 GPU 마이크로아키텍처로, 셰이더 처리량 증가를 위해 통합 셰이더 모델을 사용하며, VLIW 아키텍처를 기반으로 라데온 HD 2000, 3000, 4000, 5000, 6900 시리즈에 적용되었다가 그래픽스 코어 넥스트 아키텍처로 대체되었다.
2. 자세히
암페어 아키텍처는 이전 세대 대비 다음과 같은 구조적 개선이 이루어졌다.
* CUDA 연산 능력 8.0 (A100) 및 8.6 (지포스 30 시리즈)
* A100의 TSMC의 7 nm FinFET 공정
* 지포스 30 시리즈의 삼성전자의 8 nm 공정 (8N) 커스텀 버전
* FP16, bfloat16, TensorFloat-32(TF32) 및 FP64 지원과 희소성 가속을 갖춘 3세대 텐서 코어. 개별 텐서 코어는 이전 텐서 코어 세대에 비해 초당 256 FP16 FMA 연산 4배(GA100만 해당, GA10x에 2배)를 가지고 있다. 텐서 코어 카운트는 SM 당 1회로 감소한다.
* 지포스 30 시리즈의 2세대 광선 추적 코어, 동시 광선 추적, 음영 처리 및 컴퓨팅
* A100 40GB 및 A100 80GB의 HBM2
* 지포스 RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti의 GDDR6X 메모리
* GA10x GPU에서 SM당 FP32 코어 2개
* 쌍당 50Gbit/s 처리량을 지원하는 NVLink 3.0
* SR-IOV를 지원하는 PCI 익스프레스 4.0 (SR-IOV는 A100에만 예약됨)
* 최대 7개의 인스턴스를 지원하는 A100의 다중 인스턴스 GPU 가상화 및 GPU 파티셔닝 기능
* AV1 하드웨어 디코딩이 포함된 지포스 30 시리즈의 퓨어비디오 하드웨어 비디오 디코딩 기능 세트 K 및 A100의 기능 세트 J
* A100용 5 NVDEC
* YUV420, YUV422, YUV444, YUV400, RGBA와 함께 새로운 하드웨어 기반 5코어 JPEG 디코딩 (NVJPG)을 추가. 엔비디아 NVJPEG(JPEG 인코딩/디코딩을 위한 GPU 가속 라이브러리)가 아님
암페어 기반 A100 가속기는 2020년 5월 14일에 발표 및 출시되었다. A100은 19.5 테라플롭스(FP32) 성능, 6912 FP32/INT32 CUDA 코어, 3456 FP64 CUDA 코어, 40GB의 그래픽 메모리, 1.6TB/s의 그래픽 메모리 대역폭을 특징으로 한다. A100 가속기는 처음에는 8개의 A100을 포함하는 3세대 DGX 서버에서만 사용할 수 있었다. DGX A100에는 15TB의 PCIe 4세대 NVMe 스토리지, 2개의 64코어 AMD Rome 7742 CPU, 1TB의 RAM, Mellanox 기반 HDR InfiniBand 상호 연결도 포함되어 있다. DGX A100의 초기 가격은 199000USD였다.
DGX에 사용된 가속기를 비교하면 다음과 같다.
| 모델 | 아키텍처 | 소켓 | FP32 CUDA 코어 | FP64 코어 (텐서 제외) | 혼합 INT32/FP32 코어 | INT32 코어 | 부스트 클럭 | 메모리 클럭 | 메모리 버스 폭 | 메모리 대역폭 | VRAM | 단정밀도 (FP32) | 배정밀도 (FP64) | INT8 (비텐서) | INT8 밀집 텐서 | INT32 | FP4 밀집 텐서 | FP16 | FP16 밀집 텐서 | bfloat16 밀집 텐서 | 텐서플로트-32 (TF32) 밀집 텐서 | FP64 밀집 텐서 | 상호 연결 (NVLink) | GPU | L1 캐시 | L2 캐시 | TDP | 다이 크기 | 트랜지스터 수 | 공정 | 출시 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| A100 80GB | 암페어 | SXM4 | 6912 | 3456 | 6912 | N/A | 1410 MHz | 3.2 Gbit/s HBM2e | 5120-bit | 1.52 TB/sec | 80 GB HBM2e | 19.5 TFLOPS | 9.7 TFLOPS | N/A | 624 TOPS | 19.5 TOPS | N/A | 78 TFLOPS | 312 TFLOPS | 312 TFLOPS | 156 TFLOPS | 19.5 TFLOPS | 600 GB/sec | GA100 | 20736 KB (192 KB × 108) | 40960 KB | 400 W | 826mm2 | 54.2 B | TSMC N7 | 2020년 1분기 |
| A100 40GB | 암페어 | SXM4 | 6912 | 3456 | 6912 | N/A | 1410 MHz | 2.4 Gbit/s HBM2 | 5120-bit | 1.52 TB/sec | 40 GB HBM2 | 19.5 TFLOPS | 9.7 TFLOPS | N/A | 624 TOPS | 19.5 TOPS | N/A | 78 TFLOPS | 312 TFLOPS | 312 TFLOPS | 156 TFLOPS | 19.5 TFLOPS | 600 GB/sec | GA100 | 20736 KB (192 KB × 108) | 40960 KB | 400 W | 826mm2 | 54.2 B | TSMC N7 |
2.1. 핵심 기술
* CUDA 연산 능력 8.0 (A100) 및 8.6 (지포스 30 시리즈)
* A100의 TSMC의 7 nm FinFET 공정
* 지포스 30 시리즈의 삼성전자의 8 nm 공정 (8N) 커스텀 버전
* FP16, bfloat16, TensorFloat-32(TF32) 및 FP64가 지원되는 3세대 텐서 코어 및 희소성 가속 지원. 개별 텐서 코어는 이전 텐서 코어 세대에 비해 초당 256 FP16 FMA 연산 4배(GA100만 해당, GA10x에 2배)를 가지고 있다. 텐서 코어 카운트는 SM 당 1회로 감소한다.
* 지포스 30 시리즈의 2세대 광선 추적 코어, 동시 광선 추적, 음영 처리 및 컴퓨팅
* A100 40GB 및 A100 80GB의 HBM2
* 지포스 RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti의 GDDR6X 메모리
* GA10x GPU에서 SM당 FP32 코어 2개
* 쌍당 50Gbit/s 처리량을 지원하는 NVLink 3.0
* SR-IOV를 지원하는 PCI 익스프레스 4.0 (SR-IOV는 A100에만 예약됨)
* 최대 7개의 인스턴스를 지원하는 A100의 다중 인스턴스 GPU 가상화 및 GPU 파티셔닝 기능
* AV1 하드웨어 디코딩이 포함된 지포스 30 시리즈의 퓨어비디오 하드웨어 비디오 디코딩 기능 세트 K 및 A100의 기능 세트 J
* A100용 5 NVDEC
* YUV420, YUV422, YUV444, YUV400, RGBA와 함께 새로운 하드웨어 기반 5코어 JPEG 디코딩 (NVJPG)을 추가. 엔비디아 NVJPEG(JPEG 인코딩/디코딩을 위한 GPU 가속 라이브러리)가 아님
2.2. 칩 종류
암페어 마이크로아키텍처 기반 칩의 종류는 다음과 같다.
| 다이 | GA100 | GA102 | GA103 | GA104 | GA106 | GA107 | GA10B | GA10F |
|---|---|---|---|---|---|---|---|---|
| 다이 크기 | 826mm2 | 628mm2 | 496mm2 | 392mm2 | 276mm2 | 200mm2 | 448mm2 | ? |
| 트랜지스터 | 542억 개 | 283억 개 | 220억 개 | 174억 개 | 120억 개 | 87억 개 | 210억 개 | ? |
| 트랜지스터 밀도 | 65.6 MTr/mm2 | 45.1 MTr/mm2 | 44.4 MTr/mm2 | 44.4 MTr/mm2 | 43.5 MTr/mm2 | 43.5 MTr/mm2 | 46.9 MTr/mm2 | ? |
| 그래픽 처리 클러스터 | 8 | 7 | 6 | 6 | 3 | 2 | 2 | 1 |
| 스트리밍 멀티프로세서 | 128 | 84 | 60 | 48 | 30 | 20 | 16 | 12 |
| CUDA 코어 | 12288 | 10752 | 7680 | 6144 | 3840 | 2560 | 2048 | 1536 |
| 텍스처 매핑 유닛 | 512 | 336 | 240 | 192 | 120 | 80 | 64 | 48 |
| 렌더 출력 유닛 | 192 | 112 | 96 | 96 | 48 | 32 | 32 | 16 |
| 텐서 코어 | 512 | 336 | 240 | 192 | 120 | 80 | 64 | 48 |
| RT 코어 | N/A | 84 | 60 | 48 | 30 | 20 | 8 | 12 |
| L1 캐시 | 24MB | 10.5MB | 7.5MB | 6MB | 3MB | 2.5MB | 3MB | 1.5MB |
| 192KB per SM | 128KB per SM | 192KB per SM | 128KB per SM | |||||
| L2 캐시 | 40MB | 6MB | 4MB | 4MB | 3MB | 2MB | 4MB | ? |
2.3. 연산 능력 및 디코딩 성능 비교
암페어 아키텍처는 다음과 같은 연산 능력 및 디코딩 성능을 제공한다.
| GPU 기능 | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 |
|---|---|---|---|
| GPU 코드네임 | GP100 | GV100 | GA100 |
| GPU 아키텍처 | NVIDIA 파스칼 | NVIDIA 볼타 | NVIDIA 암페어 |
| CUDA 연산 능력 | 6.0 | 7.0 | 8.0 |
| 스레드 / 워프 | 32 | 32 | 32 |
| 최대 워프 / SM | 64 | 64 | 64 |
| 최대 스레드 / SM | 2048 | 2048 | 2048 |
| 최대 스레드 블록 / SM | 32 | 32 | 32 |
| 최대 32비트 레지스터 / SM | 65536 | 65536 | 65536 |
| 최대 레지스터 / block | 65536 | 65536 | 65536 |
| 최대 레지스터 / 스레드 | 255 | 255 | 255 |
| 최대 스레드 블록 크기 | 1024 | 1024 | 1024 |
| FP32 코어 / SM | 64 | 64 | 64 (+64 혼합 INT/FP32 코어) |
| SM 레지스터 대 FP32 코어 비율 | 1024 | 1024 | 1024 |
| 공유 메모리 크기 / SM | 64 KB | 최대 96 KB까지 설정 가능 | 최대 164 KB까지 설정 가능 |
| 지원되는 CUDA 코어 정밀도 | 지원되는 텐서 코어 정밀도 | |||||||||||||||
| FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Nvidia Tesla P4 | ||||||||||||||||
| Nvidia P100 | ||||||||||||||||
| Nvidia Volta | ||||||||||||||||
| Nvidia Turing | ||||||||||||||||
| NVIDIA A100 | ||||||||||||||||
범례:
* FPnn: nn 비트 부동 소수점
* INTn: n 비트 정수
* INT1: 바이너리
* TF32: 텐서플로트32
* BF16: bfloat16
| 동시 스트림 | H.264 디코딩 (1080p30) | H.265 (HEVC) 디코딩 (1080p30) | VP9 디코딩 (1080p30) |
|---|---|---|---|
| V100 | 16 | 22 | 22 |
| NVIDIA A100 | 75 | 157 | 108 |
3. A100 가속기와 DGX A100
암페어 기반 A100 가속기는 2020년 5월 14일에 발표 및 출시되었다. A100은 19.5 테라플롭스의 FP32 성능, 6912개의 CUDA 코어, 40GB의 그래픽 메모리, 1.6TB/s의 그래픽 메모리 대역폭을 가지고 있다. A100 가속기는 처음에 8대의 A100을 포함한 3세대 DGX 서버에서만 사용할 수 있었다.
DGX A100에는 15TB의 PCIe Gen 4 NVMe 스토리지, 2개의 64코어 AMD Rome 7742 CPU, 1TB의 RAM 및 멜라녹스 기반 HDR InfiniBand 인터커넥트가 포함되어 있다. DGX A100의 최초 가격은 199000USD였다.
DGX에 사용된 가속기 비교:
| 모델 | 아키텍처 | FP32 CUDA 코어 | 메모리 대역폭 | VRAM | 단정밀도 (FP32) | 출시 |
|---|---|---|---|---|---|---|
| A100 80GB | 암페어 | 6912 | 1.52TB/sec | 80 GB HBM2e | 19.5 TFLOPS | 2020년 1분기 |
| A100 40GB | 암페어 | 6912 | 1.52TB/sec | 40 GB HBM2 | 19.5 TFLOPS |
4. 암페어 기반 제품
암페어 마이크로아키텍처는 다양한 제품군에 사용되었다. 각 제품군은 특정 목적에 맞게 설계되었으며, 다음과 같이 분류할 수 있다.
| 유형 | GA10B | GA107 | GA106 | GA104 | GA103 | GA102 | GA100 |
|---|---|---|---|---|---|---|---|
| GeForce MX 시리즈 | GeForce MX570 (모바일) | ||||||
| GeForce 20 시리즈 | GeForce RTX 2050 (모바일) | ||||||
| GeForce 30 시리즈 | |||||||
| Nvidia 워크스테이션 GPU | RTX A1000 (모바일) | RTX A2000 (모바일) RTX A2000 | RTX A3000 (모바일) RTX A4000 (모바일) RTX A4000 RTX A5000 (모바일) | RTX A5500 (모바일) | RTX A4500 RTX A5000 RTX A5500 RTX A6000 | ||
| Nvidia 데이터 센터 GPU | Nvidia A2 Nvidia A16 | Nvidia A10 Nvidia A40 | Nvidia A30 Nvidia A100 | ||||
| Tegra SoC | AGX Orin Orin NX Orin Nano |
각 제품군에 대한 자세한 내용은 하위 섹션을 참고할 수 있다.
4.1. 지포스 시리즈
다음은 암페어 마이크로아키텍처의 지포스 시리즈이다.
* 지포스 30 시리즈
지포스 RTX 3050 모바일 (GA107)
지포스 RTX 3050 Ti 모바일 (GA107)
지포스 RTX 3050 (GA106 또는 GA107)
지포스 RTX 3060 (GA106)
지포스 RTX 3060 Ti (GA104)
지포스 RTX 3070 (GA104)
지포스 RTX 3070 Ti (GA104)
지포스 RTX 3080 (GA102)
지포스 RTX 3080 12GB (GA102)
지포스 RTX 3080 Ti (GA102)
지포스 RTX 3090 (GA102)
지포스 RTX 3090 Ti (GA102)
* GeForce MX 시리즈
GeForce MX570 (모바일) (GA107)
* GeForce 20 시리즈
GeForce RTX 2050 (모바일) (GA107)
* GeForce 30 시리즈
GeForce RTX 3050 노트북 GPU (GA107)
GeForce RTX 3050 (GA106 또는 GA107)
GeForce RTX 3050 Ti 노트북 GPU (GA107)
GeForce RTX 3060 노트북 GPU (GA106)
GeForce RTX 3060 (GA106 또는 GA104)
GeForce RTX 3060 Ti (GA104 또는 GA103)
GeForce RTX 3070 노트북 GPU (GA104)
GeForce RTX 3070 (GA104)
GeForce RTX 3070 Ti 노트북 GPU (GA104)
GeForce RTX 3070 Ti (GA104 또는 GA102)
GeForce RTX 3080 노트북 GPU (GA104)
GeForce RTX 3080 (GA102)
GeForce RTX 3080 12 GB (GA102)
GeForce RTX 3080 Ti 노트북 GPU (GA103)
GeForce RTX 3080 Ti (GA102)
GeForce RTX 3090 (GA102)
** GeForce RTX 3090 Ti (GA102)
4.2. 쿼드로 시리즈
Nvidia 워크스테이션 GPU(구 Quadro)는 다음 칩들을 사용한다.
| 칩 종류 | 제품 |
|---|---|
| GA107 | RTX A1000 (모바일) |
| GA106 | RTX A2000 (모바일), RTX A2000 |
| GA104 | RTX A3000 (모바일), RTX A4000 (모바일), RTX A4000, RTX A5000 (모바일) |
| GA103 | RTX A5500 (모바일) |
| GA102 | RTX A4500, RTX A5000, RTX A5500, RTX A6000 |
4.3. 테슬라 시리즈
엔비디아 데이터센터 GPU (이전의 테슬라)는 암페어 마이크로아키텍처를 기반으로 하는 제품군이다. 해당 제품 목록은 다음과 같다.
| 칩 종류 | 제품 목록 |
|---|---|
| GA100 | Nvidia A30, Nvidia A100, Nvidia A100 80GB |
| GA102 | Nvidia A10, Nvidia A40 |
| GA107 | Nvidia A2, Nvidia A16 |
4.4. 테그라 시스템 온 칩 (SoC)
Tegra 시스템 온 칩(SoC)에는 AGX Orin, Orin NX, Orin Nano가 있으며, 이들은 모두 GA10B 칩을 사용한다.