RDNA 3
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
RDNA 3는 AMD가 2022년에 발표한 차세대 그래픽 카드 아키텍처이다. 5nm 공정 기반 칩렛 디자인을 사용하여 와트당 성능을 향상시키는 것을 목표로 하며, 소비자용 GPU 최초로 칩렛을 활용한다. RDNA 3는 GCD(Graphics Compute Die)와 MCD(Memory Cache Dies) 두 종류의 칩렛을 사용하며, 2세대 레이 트레이싱 가속기를 특징으로 한다. 데스크탑, 모바일, 워크스테이션, 내장 그래픽 등 다양한 제품군에 적용되었으며, Radeon RX 7000 시리즈, Radeon Pro W7000 시리즈, Ryzen 프로세서 내장 그래픽 등이 있다. 
2022년 6월 9일, AMD는 재무 분석가의 날 행사를 열어 2022년에 RDNA 3, 2024년에 RDNA 4가 출시될 예정임을 언급하는 클라이언트 GPU 로드맵을 발표했다.[49][1] AMD는 투자자들에게 RDNA 3를 통해 와트당 성능을 50% 이상 향상시키고, 다가오는 아키텍처가 5nm 공정의 칩렛 패키징을 사용하여 구축될 것이라고 발표했다.[50][2] 
RDNA 3는 소비자용 GPU 최초로 칩렛 디자인을 도입하여, 단일 다이 방식의 한계를 극복하고 성능을 향상시켰다. 칩렛 디자인은 서로 다른 공정 노드를 활용하여 생산 효율성을 높이고, 웨이퍼 수율을 극대화할 수 있다는 장점이 있다. 
(코드명)
2. 배경
2022년 8월 29일, AMD의 라이젠 7000 공개 행사 후반부에 RDNA 3의 선공개가 포함되었다. 이 미리보기에서는 RDNA 3가 ''P의 거짓'' 게임을 실행하는 모습, AMD CEO인 리사 수가 칩렛 디자인이 사용될 것이라고 확인하는 모습, 그리고 AMD의 RDNA 3 GPU 레퍼런스 디자인의 일부를 보여주었다.[51][3]
2022년 11월 3일, 라스베이거스에서 열린 행사에서 RDNA 3 아키텍처에 대한 자세한 내용이 공개되었다.[52][4]
3. 아키텍처
칩렛을 사용하면 다이가 기능과 목적에 따라 서로 다른 공정 노드에서 제작될 수 있다. 캐시 및 SRAM은 밀도 및 전력 소비 측면에서 N5와 같은 고급 노드에서 로직만큼 선형적으로 확장되지 않으므로, 더 저렴하고 성숙된 N6 노드에서 제작할 수 있다. 하나의 대형 모놀리식 다이 대신 소형 다이를 사용하면 더 많은 다이를 단일 웨이퍼에 맞출 수 있어 웨이퍼 수율을 최대화할 수 있다.[7] 반면, N5로 제작된 대형 모놀리식 RDNA 3 다이는 생산 비용이 더 많이 들고 수율이 낮을 것이다.
칩렛 구성과 관련한 자세한 내용은 하위 섹션에서 확인할 수 있다.
3. 1. 칩렛 구성
RDNA 3는 소비자용 GPU로는 처음으로 단일 다이 대신 모듈형 칩렛을 활용한다. AMD는 이전에 Ryzen 데스크톱 및 Epyc 서버 프로세서에서 칩렛을 성공적으로 사용했다.[5] 칩렛 기반 GPU 마이크로아키텍처로의 전환은 AMD 수석 부사장 샘 나프지거가 주도했다.[6]
RDNA 3는 GCD (Graphics Compute Die, 그래픽 컴퓨트 다이)와 MCD (Memory Cache Dies, 메모리 캐시 다이) 두 종류의 칩렛을 사용한다. GCD는 그래픽 연산을 담당하고, MCD는 메모리 캐시 및 메모리 인터페이스를 담당한다. Ryzen 및 Epyc 프로세서에서 AMD는 PCIe 기반 Infinity Fabric 프로토콜을 사용하여 패키지의 다이를 유기 기판의 트레이스를 통해 연결했다. 이 방식은 비용 효율적이지만, 지연 시간과 전력 소비가 증가하고, 고대역폭 GPU에 필요한 연결 밀도를 달성할 수 없다는 단점이 있었다.[8]
RDNA 3의 다이는 TSMC의 InFO-RDL (Integrated Fan-Out Re-Distribution Layer, 통합 팬아웃 재분배 레이어) 패키징 기술을 사용하여 연결된다.[10] 이는 고대역폭 및 고밀도 다이 간 통신을 위한 실리콘 브리지를 제공한다. InFO를 사용하면 AMD의 Instinct MI200 및 MI300 데이터센터 가속기에서 사용되는 것과 같은 더 비싼 실리콘 인터포저를 사용하지 않고 다이를 연결할 수 있다. 각 Infinity Fanout 링크는 9.2Gbps의 대역폭을 갖는다. RDNA의 칩렛 상호 연결은 /s의 누적 대역폭을 달성한다.[10]
3. 2. GCD (Graphics Compute Die)
RDNA 3의 GCD (Graphics Compute Die)는 그래픽 처리의 핵심적인 연산을 담당하는 칩렛이다.
RDNA 3는 L1 및 L2 캐시의 용량을 늘렸다. 셰이더 어레이에서 공유되는 16-way 연관 L1 캐시는 RDNA 3에서 256KB로 두 배 증가했다. L2 캐시는 RDNA 2의 4MB에서 RDNA 3의 6MB로 증가했다. L3 인피니티 캐시의 용량은 128MB에서 96MB로 감소했으며, 지연 시간은 GCD 내의 WGP에 더 가까이 위치하는 대신 MCD에 물리적으로 존재하기 때문에 증가했다.[20] RDNA 3는 최대 384비트의 더 넓은 메모리 인터페이스를 가지는 반면, RDNA 2는 최대 256비트의 메모리 인터페이스를 사용했기 때문에 인피니티 캐시 용량이 감소했다. RDNA 3가 더 넓은 384비트 메모리를 가지고 있다는 것은 더 높은 메모리 대역폭을 가지므로 대역폭 병목 현상을 피하기 위해 캐시 적중률이 높을 필요가 없다는 것을 의미한다.[20] RDNA 3 GPU는 GDDR6X 대신 GDDR6 메모리를 사용하는데, 이는 GDDR6X의 전력 소비가 증가했기 때문이다.
3. 2. 1. 컴퓨트 유닛 (Compute Units)
RDNA 3의 그래픽 처리를 위한 컴퓨트 유닛(Compute Unit, CU)은 듀얼 CU 워크 그룹 프로세서(WGP)로 구성된다. AMD는 RDNA 3 GPU에 매우 많은 수의 WGP를 포함하는 대신, WGP당 처리량 개선에 집중했다.
이는 사이클당 두 개의 명령을 실행할 수 있는 개선된 듀얼 발행 셰이더 ALU를 통해 이루어진다. 최대 96개의 그래픽 컴퓨트 유닛을 포함할 수 있으며, 최대 61 TFLOPS의 연산 능력을 제공할 수 있다.[14]
RDNA 3는 AMD의 CDNA 아키텍처에서 볼 수 있는 매트릭스 코어와 같은 AI 가속을 위한 전용 실행 유닛을 포함하지는 않지만, FP16 실행 리소스를 사용하여 추론 작업을 실행하는 효율성은 웨이브 MMA(행렬 곱셈-누산) 명령을 통해 개선되었다. 이는 RDNA 2에 비해 추론 성능 향상으로 이어진다.[15][16] WMMA는 FP16, BF16, INT8 및 INT4 데이터 유형을 지원한다.[17] ''Tom's Hardware''는 AMD의 가장 빠른 RDNA 3 GPU인 RX 7900 XTX가 스테이블 디퓨전으로 분당 26개의 이미지를 생성할 수 있었으며, 이는 가장 빠른 RDNA 2 GPU인 RX 6950 XT의 분당 6.6개 이미지에 비해 크게 향상된 성능이라고 평가했다.[18]
3. 2. 2. 레이 트레이싱
RDNA 3는 2세대 레이 트레이싱 가속기를 특징으로 한다. 각 컴퓨트 유닛은 하나의 레이 트레이싱 가속기를 포함한다. 컴퓨트 유닛의 수가 증가함에 따라 전체 레이 트레이싱 가속기의 수도 증가했지만, RDNA 2에 비해 컴퓨트 유닛당 레이 트레이싱 가속기 수는 증가하지 않았다.
3. 2. 3. 클럭 속도
RDNA 3는 높은 클럭 속도를 지원하도록 설계되었다. RDNA 3에서 클럭 속도는 분리되어 프론트 엔드는 2.5GHz의 주파수에서 작동하고 셰이더는 2.3GHz에서 작동한다. AMD에 따르면 더 낮은 클럭 속도에서 작동하는 셰이더는 최대 25%의 전력 절감 효과를 제공하며, RDNA 3의 셰이더 클럭 속도는 RDNA 2보다 여전히 15% 더 빠르다.[19]
3. 2. 4. 캐시 및 메모리 서브시스템
RDNA 3는 L1 및 L2 캐시의 용량을 늘렸다. 셰이더 어레이에서 공유되는 16-way 연관 L1 캐시는 RDNA 3에서 256KB로 두 배 증가했다. L2 캐시는 RDNA 2의 4MB에서 RDNA 3의 6MB로 증가했다. L3 인피니티 캐시의 용량은 128MB에서 96MB로 감소했으며, 지연 시간은 GCD 내의 WGP에 더 가까이 위치하는 대신 MCD에 물리적으로 존재하기 때문에 증가했다.[20] RDNA 3는 최대 384비트의 더 넓은 메모리 인터페이스를 가지고 있는 반면, RDNA 2는 최대 256비트의 메모리 인터페이스를 사용했기 때문에 인피니티 캐시 용량이 감소했다. RDNA 3가 더 넓은 384비트 메모리를 가지고 있다는 것은 더 높은 메모리 대역폭이 있기 때문에 대역폭 병목 현상을 피하기 위해 캐시 적중률이 그렇게 높을 필요가 없다는 것을 의미한다.[20] RDNA 3 GPU는 더 빠른 GDDR6X 대신 GDDR6 메모리를 사용하는데, 이는 GDDR6X의 전력 소비가 증가했기 때문이다.
3. 3. MCD (Memory Cache Die)
각각 20억 5천만 개의 트랜지스터를 가진 메모리 캐시 다이(MCD)는 16MB의 L3 캐시를 포함한다. 이론적으로는 MCD가 사용되지 않는 TSV 연결 지점을 포함하고 있기 때문에 AMD의 3D V-캐시 다이 스태킹 기술을 통해 추가적인 L3 캐시를 MCD에 추가할 수 있다.[11][12] 각 MCD에는 2개의 물리적인 32비트 GDDR6 메모리 인터페이스가 있어 MCD당 64비트 인터페이스를 구성한다.[13] 라데온 RX 7900 XTX는 6개의 MCD를 사용하여 384비트 메모리 버스를 가지는 반면, RX 7900 XT는 5개의 MCD를 사용하여 320비트 버스를 가진다.
3. 4. 미디어 엔진
RDNA 3 GPU는 "Radiance Display Engine"이라는 새로운 디스플레이 엔진을 특징으로 한다. AMD는 DisplayPort 2.1 UHBR 13.5를 지원하여 최대 54Gbps의 대역폭을 제공하며, 이를 통해 4K 및 8K 해상도에서 높은 주사율을 지원한다고 밝혔다.[24] Radeon Pro W7900 및 W7800은 80Gbps UHBR20 표준을 지원한다. DisplayPort 2.1은 DSC를 사용하여 4K에서 480Hz, 8K에서 165Hz를 지원할 수 있다. 이전 DisplayPort 1.4 표준은 DSC를 사용하여 4K에서 240Hz, 8K에서 60Hz로 제한되었다.
3. 5. 전력 효율성
AMD는 RDNA 3가 RDNA 2에 비해 와트당 성능을 54% 향상시켰다고 주장한다.[4] 이는 RDNA와 RDNA 2 모두에서 와트당 성능을 50% 향상시켰다는 이전 주장에 부합한다.
4. 제품
출시일 
가격아키텍처 
공정칩렛 트랜지스터 
다이 크기코어 
Config클럭 
(MHz)텍스처 
(GT/s)픽셀 
(GP/s)Single 
(TFLOPS)Infinity Cache 
(크기/대역폭)메모리 
(크기/대역폭/버스 유형)TDP 버스 
인터페이스Radeon RX 7600 
(Navi 33)[26]
269USDRDNA 3 
TSMC N6Monolithic 204mm2 2048:128:64:32:64 
32 CU1720 
2655220.2 
339.8110.1 
169.914.09 
21.7532MB 
476.9GB/s8GB 
288GB/s
GDDR6
128-bit165W PCIe 4.0 
×8Radeon RX 7600 XT 
(Navi 33)[27][28]
329USD1720 
2755220.2 
352.6110.1 
176.314.09 
22.5716GB 
288GB/s
GDDR6
128-bit190W Radeon RX 7700 XT 
(Navi 32)[29]
449USDRDNA 3  
 TSMC N5 (GCD) 
 TSMC N6 (MCD)1 ×  
3 × 346mm2 3456:216:96:54:108 
54 CU1900 
2544410.4 
549.5182.4 
244.226.27 
35.1748MB 
1995GB/s12GB 
432GB/s
GDDR6
192-bit245W PCIe 4.0 
×16Radeon RX 7800 XT 
(Navi 32)[30]
499USD1 ×   
 4 ×3840:240:96:60:120 
60 CU1800 
2430432 
583.2172.8 
233.227.64 
37.3264MB 
2708GB/s16GB 
624GB/s
GDDR6
256-bit263W Radeon RX 7900 GRE 
(Navi 31)[31]
중국 전용,
549USD529mm2 5120:320:192:80:160 
80 CU1270 
2245406.4 
718.4243.8 
431.026.01 
45.982250GB/s 576GB/s 
18000MT/s260W Radeon RX 7900 XT 
(Navi 31)[32]
899USD1 ×   
 5 ×5376:336:192:84:168 
84 CU1500 
2400504.0 
806.4288.0 
460.832.26 
51.6180MB 
2900GB/s20GB 
800GB/s
GDDR6
320-bit315W Radeon RX 7900 XTX 
(Navi 31)[33]
999USD1 ×   
 6 ×6144:384:192:96:192 
96 CU1900 
2500729.6 
960.0364.8 
480.046.69 
61.4496MB 
3500GB/s24GB 
960GB/s
GDDR6
384-bit355W