CUDA

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

CUDA는 엔비디아에서 개발한 병렬 컴퓨팅 플랫폼 및 프로그래밍 모델로, GPU를 사용하여 연산 집약적인 작업을 가속화한다. 2007년에 출시되었으며, C/C++를 확장한 CUDA C/C++를 비롯한 다양한 프로그래밍 언어를 지원한다. CUDA는 그래픽 API를 사용하는 전통적인 범용 GPU에 비해 분산 읽기, 공유 메모리, 빠른 입출력, 정수 및 비트 연산 지원 등의 장점을 제공하지만, 엔비디아 GPU에서만 사용 가능하다는 제약과 이식성, SIMD 실행 모델의 한계 등의 단점도 존재한다. 3D 그래픽 가속 렌더링, 동영상 파일 형식 변환, 암호화, 생물정보학, 기계 학습 등 다양한 분야에서 활용되며, 인텔의 OneAPI, AMD의 ROCm과 경쟁한다.

더 읽어볼만한 페이지

GPGPU 라이브러리 - OpenCL
OpenCL은 다양한 계산 자원을 활용하여 병렬 컴퓨팅을 가능하게 하는 프레임워크로, OpenCL C/C++ 언어를 사용하여 스트림 프로세싱 커널을 작성하며, 크로노스 그룹에서 관리하는 로열티 프리 오픈 표준이다.
GPGPU 라이브러리 - ROCm
ROCm은 AMD가 개발한 개방형 소프트웨어 스택으로, GPU를 활용한 컴퓨팅을 지원하며, HIP를 통해 CUDA 코드를 사용할 수 있도록 지원하고 머신 러닝, 슈퍼컴퓨팅 등 다양한 분야에서 활용된다.
엔비디아 소프트웨어 - 엔비디아 RTX
엔비디아 RTX는 레이 트레이싱, AI 통합, CUDA를 포함한 엔비디아의 기술로, 지포스 RTX 및 RTX 시리즈 GPU에서 텐서 코어를 활용하여 DLSS와 같은 AI 기반 기술로 이미지 품질을 향상시키고 현실감 있는 그래픽을 구현하는 데 기여한다.
엔비디아 소프트웨어 - Cg (프로그래밍 언어)
Cg는 엔비디아와 마이크로소프트가 GPU 프로그래밍을 위해 개발한 고수준 셰이딩 언어로, GLSL, HLSL과 유사하며 CUDA 환경에도 영향을 미쳤고 현재도 활용되고 있다.
GPGPU - 인텔 Xe
인텔 Xe는 저전력부터 고성능 컴퓨팅까지 다양한 시장을 목표로 하는 인텔의 GPU 아키텍처 제품군으로, Xe-LP, Xe-HPG, Xe-HP, Xe-HPC 등의 하위 아키텍처를 가지며 외장 그래픽 카드인 인텔 아크 시리즈와 내장 그래픽, 데이터 센터용 GPU 등에 활용된다.
GPGPU - 테라스케일 (마이크로아키텍처)
테라스케일은 AMD가 개발한 GPU 마이크로아키텍처로, 셰이더 처리량 증가를 위해 통합 셰이더 모델을 사용하며, VLIW 아키텍처를 기반으로 라데온 HD 2000, 3000, 4000, 5000, 6900 시리즈에 적용되었다가 그래픽스 코어 넥스트 아키텍처로 대체되었다.

2. 역사

그래픽 처리 장치(GPU)는 실시간 고해상도 3D 그래픽스 연산에 특화된 프로세서로, 2012년에는 대규모 데이터 블록을 효율적으로 처리하는 고도로 병렬화된 멀티 코어 시스템으로 발전했다. 이러한 설계는 암호화 해시 함수, 머신 러닝, 분자 역학 시뮬레이션, 물리 엔진 등 대규모 데이터 블록을 병렬 처리하는 알고리즘에서 중앙 처리 장치(CPU)보다 더 효과적이다.^[8]

2000년 스탠퍼드 대학교의 이안 버크(Ian Buck)는 32개의 GeForce 카드를 사용해 8K 게이밍 장비를 만들었고, 이후 GPU에서의 범용 병렬 프로그래밍 연구로 DARPA의 지원을 받았다. 그는 2004년부터 CUDA 개발을 이끈 엔비디아에 합류했다. 젠슨 황은 CUDA를 통해 엔비디아 GPU가 과학 컴퓨팅 분야에서 널리 사용되도록 하는 목표를 세웠다.^[8]

GPU는 단순 연산을 하는 많은 유닛을 가지고 있어, 이론상 최고 성능(FLOPS)은 같은 가격대의 CPU를 넘어서는 경우도 있다. 병렬성과 연산 밀도가 높은 처리에 있어서는 복잡한 구성을 가진 CPU보다 높은 성능을 낼 수 있다. 하지만 복잡한 분기 처리나 GPU와 CPU 간 데이터 전송은 병목 현상이 될 수 있어, 적용 분야를 신중하게 선택해야 한다.^[150] CUDA로 작성된 프로그램을 최적화하려면, Warp나 공유 메모리 등 엔비디아 GPU 아키텍처에 대한 깊은 이해가 필요하다.^[151]

2. 1. CUDA 이전의 GPGPU

CUDA 이전에는 GPGPU(General-Purpose computing on Graphics Processing Units)를 위해 여러 기술들이 사용되었다. 대표적으로는 마이크로소프트의 HLSL(High-Level Shading Language), OpenGL의 GLSL(OpenGL Shading Language), 엔비디아의 Cg(C for Graphics) 등이 있었다.

이러한 기술들은 기본적으로 그래픽스 처리를 위해 설계되었기 때문에 범용 계산에 사용하기에는 여러 한계가 있었다. 예를 들어, 셰이더 프로그램을 작성해야 했고, 메모리 접근이 제한적이었으며, 병렬 처리 모델이 그래픽스 파이프라인에 종속적이었다.

2. 2. CUDA의 등장과 발전

GPU에서의 범용 병렬 프로그래밍을 위해 2004년부터 CUDA 개발을 감독해 온 엔비디아는 CUDA를 추진하면서 엔비디아 GPU가 과학 컴퓨팅을 위한 일반적인 하드웨어가 되도록 목표를 세웠고, CUDA는 2007년에 출시되었다.^[8]

원래 실시간 그래픽스 표시 용도, 특히 게임 그래픽스 용도로 특화된 GPU를 개발했던 것은 엔비디아(NVIDIA)와 ATI (현 AMD)이지만, 프로그래머블 셰이더의 발전에 따른 프로그래밍 가능성의 향상에 따라, 그 높은 처리 성능을 그래픽스 외에도 활용할 수 있도록 하기 위해 엔비디아가 개발한 기술이 CUDA이다. 이러한 범용 컴퓨팅을 위한 GPU 활용 기술을 GPGPU(General-Purpose computing on Graphics Processing Units)라고 부른다.

CUDA의 발표는 2006년 11월^[152], CUDA 1.0의 제공 시작은 2007년 7월^[153]이며, 후발 GPGPU 관련 기술에는 OpenCL(1.0 사양 공개는 2008년^[154])이나 DirectCompute(DirectX 컴퓨트 셰이더. Windows 7/DirectX 11.0과 동시에 2009년에 일반 제공 시작^[155]) 등이 있지만, 각각 기술 용어는 다르지만 전체적으로는 CUDA와 매우 흡사한 특징을 가지고 있다. 선발 기술인 CUDA는 2014년 시점에서 교육·연구 기관에서의 채용 사례가 많고,^[156] 기계 학습 등의 분야에서 산업계에서도 채용 노력이 진행되고 있다.^[157]

NVIDIA는 CUDA를 기반으로 구축된 라이브러리의 총칭을 CUDA-X라고 부른다.^[169] 여기에는 다음이 포함된다.

3. CUDA 프로그래밍

CUDA 플랫폼은 소프트웨어 개발자가 CUDA 가속 라이브러리, 컴파일러 지시어(예: OpenACC), 그리고 C, C++, 포트란, Python을 포함한 업계 표준 프로그래밍 언어 확장을 통해 접근할 수 있도록 지원한다.^[9] C/C++ 프로그래머는 Nvidia의 LLVM 기반 C/C++ 컴파일러인 nvcc나 clang 자체를 사용할 수 있다.^[9] 포트란 프로그래머는 The Portland Group의 PGI CUDA 포트란 컴파일러를 사용할 수 있으며, 파이썬 프로그래머는 cuNumeric 라이브러리를 사용하여 Nvidia GPU에서 애플리케이션을 가속화할 수 있다.

CUDA는 라이브러리, 컴파일러 지시어, CUDA C/C++ 및 CUDA 포트란 외에도 Khronos Group의 OpenCL,^[10] 마이크로소프트의 DirectCompute, OpenGL Compute Shader 및 C++ AMP를 포함한 다른 컴퓨팅 인터페이스를 지원한다.^[11] Python, Perl, Fortran, Java, Ruby, Lua, Common Lisp, Haskell, R, MATLAB, IDL, Julia 및 Mathematica를 위한 타사 래퍼도 사용할 수 있다.

CUDA는 낮은 수준의 API (CUDA '''드라이버''' API)와 더 높은 수준의 API (CUDA '''런타임''' API)를 모두 제공한다.

기술 사양	컴퓨팅 능력 (버전)
기술 사양	1.0	1.1	1.2	1.3	2.x	3.0	3.2	3.5	3.7	5.0	5.2	5.3	6.0	6.1	6.2	7.0	7.2	7.5	8.0	8.6	8.7	8.9	9.0
장치당 최대 레지던트 그리드 수 (동시 커널 실행, 특정 장치에서는 더 낮을 수 있음)	colspan="4"	colspan="2"	colspan="1"	colspan="4"	colspan="1"	colspan="1"	colspan="1"	colspan="1"	colspan="1"	colspan="1"	colspan="6" \|
스레드 블록 그리드의 최대 차원 수	colspan="4"	colspan="19" \|
스레드 블록 그리드의 최대 x 차원	colspan="5"	colspan="18" \|
스레드 블록 그리드의 최대 y 또는 z 차원	colspan="23" \|
스레드 블록의 최대 차원 수	colspan="23" \|
블록의 최대 x 또는 y 차원	colspan="4"	colspan="19" \|
블록의 최대 z 차원	colspan="23" \|
블록당 최대 스레드 수	colspan="4"	colspan="19" \|
워프 크기	colspan="23" \|
멀티프로세서당 최대 레지던트 블록 수	colspan="5"	colspan="4"	colspan="8"	colspan="1"	colspan="1"	colspan="2"	colspan="1"	colspan="1" \|
멀티프로세서당 최대 레지던트 워프 수	colspan="2"	colspan="2"	colspan="1"	colspan="12"	colspan="1"	colspan="1"	colspan="3"	colspan="1" \|
멀티프로세서당 최대 레지던트 스레드 수	colspan="2"	colspan="2"	colspan="1"	colspan="12"	colspan="1"	colspan="1"	colspan="3"	colspan="1" \|
멀티프로세서당 32비트 일반 레지스터 수	colspan="2"	colspan="2"	colspan="1"	colspan="3"	colspan="1"	colspan="14" \|
멀티프로세서당 32비트 균일 레지스터 수	colspan="17"	^[83]^[84]\| colspan="5" \|
스레드 블록당 최대 32비트 레지스터 수	colspan="2"	colspan="2"	colspan="1"	colspan="1"	colspan="1"	colspan="4"	colspan="1"	colspan="2"	colspan="1"	colspan="8" \|
스레드당 최대 32비트 일반 레지스터 수	colspan="4"	colspan="2"	colspan="17" \|
워프당 최대 32비트 균일 레지스터 수	colspan="17"	^[85]^[86]\| colspan="5" \|
멀티프로세서당 공유 메모리 크기 (전체 공유 메모리 + L1 캐시에서, 해당하는 경우)	colspan="4"	colspan="1"	colspan="3"	colspan="1"	colspan="1"	colspan="1"	colspan="2"	colspan="1"	colspan="1"	colspan="2"	colspan="1"	colspan="1"	colspan="1"	colspan="1"	colspan="1"	colspan="1" \|
스레드 블록당 최대 공유 메모리 크기	colspan="4"	colspan="11"	colspan="1"	colspan="1"	colspan="1"	colspan="1"	colspan="1"	colspan="1"	colspan="1"	colspan="1" \|
공유 메모리 뱅크 수	colspan="4"	colspan="19" \|
스레드당 로컬 메모리 크기	colspan="4"	colspan="19" \|
CUDA C/C++에서 접근 가능한 상수 메모리 크기 (1 뱅크, PTX는 11 뱅크에 접근 가능, SASS는 18 뱅크에 접근 가능)	colspan="23" \|
상수 메모리에 대한 멀티프로세서당 캐시 작업 세트	colspan="12"	colspan="1"	colspan="10" \|
텍스처 메모리에 대한 멀티프로세서당 캐시 작업 세트	colspan="3"	colspan="1"	colspan="1"	^[87]\| colspan="1"				colspan="1"	^[88]\| colspan="1"	colspan="1"	colspan="1"	colspan="2"	colspan="1"	colspan="1"	colspan="1"	colspan="1"	colspan="1"	colspan="1" \|
CUDA 어레이에 바인딩된 1D 텍스처 참조의 최대 너비	colspan="4"	colspan="8"	colspan="11" \|
선형 메모리에 바인딩된 1D 텍스처 참조의 최대 너비	colspan="12"	colspan="1"	colspan="2"	colspan="1"	colspan="1"	colspan="6" \|
1D 레이어드 텍스처 참조의 최대 너비 및 레이어 수	colspan="4"	colspan="8"	colspan="11" \|
CUDA 어레이에 바인딩된 2D 텍스처 참조의 최대 너비 및 높이	colspan="4"	colspan="8"	colspan="11" \|
선형 메모리에 바인딩된 2D 텍스처 참조의 최대 너비 및 높이	colspan="9"	colspan="3"	colspan="11" \|
텍스처 수집을 지원하는 CUDA 어레이에 바인딩된 2D 텍스처 참조의 최대 너비 및 높이	colspan="4"	colspan="8"	colspan="11" \|
2D 레이어드 텍스처 참조의 최대 너비, 높이 및 레이어 수	colspan="4"	colspan="8"	colspan="11" \|
선형 메모리 또는 CUDA 어레이에 바인딩된 3D 텍스처 참조의 최대 너비, 높이 및 깊이	colspan="5"	colspan="7"	colspan="11" \|
큐브맵 텍스처 참조의 최대 너비(및 높이)	colspan="4"	colspan="8"	colspan="11" \|
큐브맵 레이어드 텍스처 참조의 최대 너비(및 높이) 및 레이어 수	colspan="4"	colspan="8"	colspan="11" \|
커널에 바인딩될 수 있는 최대 텍스처 수	colspan="5"	colspan="18" \|
CUDA 어레이에 바인딩된 1D 표면 참조의 최대 너비	colspan="4" rowspan="8"	colspan="5"	colspan="3"	colspan="11" \|
1D 레이어드 표면 참조의 최대 너비 및 레이어 수	colspan="5"	colspan="3"	colspan="11" \|
CUDA 어레이에 바인딩된 2D 표면 참조의 최대 너비 및 높이	colspan="5"	colspan="3"	colspan="11" \|
2D 레이어드 표면 참조의 최대 너비, 높이 및 레이어 수	colspan="5"	colspan="3"	colspan="11" \|
CUDA 어레이에 바인딩된 3D 표면 참조의 최대 너비, 높이 및 깊이	colspan="5"	colspan="3"	colspan="11" \|
CUDA 어레이에 바인딩된 큐브맵 표면 참조의 최대 너비(및 높이)	colspan="5"	colspan="3"	colspan="11" \|
큐브맵 레이어드 표면 참조의 최대 너비 및 레이어 수	colspan="5"	colspan="3"	colspan="11" \|
커널에 바인딩될 수 있는 최대 표면 수	colspan="1"	colspan="10"	colspan="8" \|
커널당 최대 명령 수	colspan="4"	colspan="19" \|
스레드 블록 클러스터당 최대 스레드 블록 수^[89]	colspan="22"
기술 사양	1.0	1.1	1.2	1.3	2.x	3.0	3.2	3.5	3.7	5.0	5.2	5.3	6.0	6.1	6.2	7.0	7.2	7.5	8.0	8.6	8.7	8.9	9.0
기술 사양	컴퓨팅 능력 (버전)

^[90]^[91]

CUDA - [IT 관련 정보]에 관한 문서
일반 정보
이름	CUDA (Compute Unified Device Architecture)
종류	GPGPU
개발사	Nvidia
출시일	2007년 2월 15일
최신 버전	12.6
최신 버전 출시일	2024년 8월
운영 체제	윈도우, 리눅스
지원 GPU	지원되는 GPU (아래 참조)
라이선스	사유 소프트웨어
웹사이트	CUDA Zone
기술
사용 목적	병렬 컴퓨팅 플랫폼 및 프로그래밍 모델

분야	라이브러리
수학	cuBLAS - BLAS 라이브러리
	cuFFT - 고속 푸리에 변환
	CUDA Math Library
	cuRAND - 의사 난수 생성
	cuSOLVER - LAPACK 지원
	cuSPARSE - 희소 행렬
	cuTENSOR - 텐서 (다차원 배열)
	cuDSS, AmgX - 희소 행렬의 AX = B를 푸는 라이브러리
병렬 알고리즘	Thrust
전산 리소그래피	cuLitho
이미지와 비디오	CV-CUDA
	nvJPEG
	NVIDIA Performance Primitives
	NVIDIA Video Codec SDK
	NVIDIA Optical Flow SDK
통신 라이브러리	NVSHMEM
통신 라이브러리	NCCL
딥 러닝	NVIDIA cuDNN
	NVIDIA TensorRT
	NVIDIA Riva
	NVIDIA DeepStream SDK, NVIDIA DALI

프로젝트명	설명
프로젝트 코리앤더(Project Coriander)	CUDA C++11 소스를 OpenCL 1.2 C로 변환한다. TensorFlow를 실행하기 위한 CUDA-on-CL의 포크이다.^[28]^[29]^[30]
CU2CL	CUDA 3.2 C++를 OpenCL C로 변환한다.^[31]
GPUOpen HIP	AMD 및 Nvidia GPU용으로 설계된 CUDA 및 ROCm 상위의 얇은 추상화 계층이다. CUDA C++ 소스 가져오기를 위한 변환 도구를 제공하며, CUDA 4.0 이상과 C++11 및 float16을 지원한다.
ZLUDA	AMD GPU에서 CUDA를 대체한다. 이전에는 Intel GPU에서 거의 네이티브 성능을 제공했다.^[32] 개발자 안제이 야닉(Andrzej Janik)은 2021년과 2022년에 각각 인텔과 AMD로부터 별도로 계약을 맺어 소프트웨어를 개발했으나, 비즈니스 사용 사례 부족으로 양사 모두 공식 출시하지 않았다. AMD의 계약에는 Janik이 AMD용 코드를 독립적으로 출시할 수 있도록 하는 조항이 포함되어 AMD GPU만 지원하는 새로운 버전을 출시했다.^[33]
chipStar	고급 OpenCL 3.0 또는 Level Zero 플랫폼에서 CUDA/HIP 프로그램을 컴파일하고 실행한다.^[34]

자료형	연산	지원 시작	원자적 연산	지원 시작 (전역 메모리)	지원 시작 (공유 메모리)
8비트 정수 (부호/무부호)	로딩, 저장, 변환	1.0		colspan="2" \|
16비트 정수 (부호/무부호)	일반 연산	1.0	atomicCAS()	3.5
32비트 정수 (부호/무부호)	일반 연산	1.0	atomic 함수	1.1	1.2
64비트 정수 (부호/무부호)	일반 연산	1.0	atomic 함수	1.2	2.0
임의의 128비트 복사 가능 자료형	일반 연산		atomicExch, atomicCAS	9.0
16비트 부동 소수점 (FP16)	덧셈, 뺄셈, 곱셈, 비교, 워프 셔플 함수, 변환	5.3	half2 atomic 덧셈	6.0
16비트 부동 소수점 (FP16)	덧셈, 뺄셈, 곱셈, 비교, 워프 셔플 함수, 변환	5.3	atomic 덧셈	7.0
16비트 부동 소수점 (BF16)	덧셈, 뺄셈, 곱셈, 비교, 워프 셔플 함수, 변환	8.0	atomic 덧셈	8.0
32비트 부동 소수점	일반 연산	1.0	atomicExch()	1.1	1.2
32비트 부동 소수점	일반 연산	1.0	atomic 덧셈	2.0
32비트 부동 소수점 (float2 및 float4)	일반 연산		atomic 덧셈	9.0
64비트 부동 소수점	일반 연산	1.3	atomic 덧셈	6.0

메모리 (하드웨어)	메모리 (변수 범위)	계산 (하드웨어)	계산 (코드 구문)	계산 (코드 의미)
RAM	비CUDA 변수	호스트	프로그램	하나의 루틴 호출
VRAM, GPU L2 캐시	전역, const, 텍스처	장치	그리드	많은 프로세서에서 동일한 서브루틴의 동시 호출
GPU L1 캐시	로컬, 공유	SM ("스트리밍 멀티프로세서")	블록	개별 서브루틴 호출
		워프 = 32 스레드		SIMD 명령어
GPU L0 캐시, 레지스터		스레드 (일명 "SP", "스트리밍 프로세서", "CUDA 코어", 그러나 이러한 이름은 현재 사용 중단됨)		벡터 연산 내의 개별 스칼라 연산과 유사

CUDA

1. 개요

더 읽어볼만한 페이지

2. 역사

2. 1. CUDA 이전의 GPGPU

2. 2. CUDA의 등장과 발전

3. CUDA 프로그래밍

3. 1. CUDA C/C++

3. 2. 기타 언어 바인딩

3. 3. 예제 코드

4. CUDA 아키텍처

4. 1. 온톨로지

4. 2. 기술 사양

4. 3. 멀티프로세서 아키텍처

5. CUDA의 장단점

5. 1. 장점

5. 2. 단점

6. CUDA 활용 분야

6. 1. 경쟁 기술

7. 지원 GPU

8. 개발 도구

9. 관련 서적

참조

데이터 유형	밀집 행렬	희소 행렬	7.0	7.2	7.5 워크스테이션	7.5 데스크톱	8.0	8.6 워크스테이션	8.7	8.6 데스크톱	8.9 데스크톱	8.9 워크스테이션	9.0	10.0
1비트 값 (AND)
1비트 값 (XOR)
4비트 정수
4비트 부동 소수점 FP4 (E2M1?)
6비트 부동 소수점 FP6 (E3M2 및 E2M3?)
8비트 정수
8비트 부동 소수점 FP8 (E4M3 및 E5M2) with FP16 누산
8비트 부동 소수점 FP8 (E4M3 및 E5M2) with FP32 누산
16비트 부동 소수점 FP16 with FP16 누산
16비트 부동 소수점 FP16 with FP32 누산
16비트 부동 소수점 BF16 with FP32 누산
32비트 (19비트 사용) 부동 소수점 TF32
64비트 부동 소수점

텐서 코어 구성	7.0	8.0, 8.6
FP16 단위의 점 곱셈 유닛 너비 (바이트 단위)^[69]^[70]^[71]^[72]	colspan="1" \| colspan="2" \|
텐서 코어당 점 곱셈 유닛	colspan="4"
SM 파티션당 텐서 코어	colspan="4"
전체 처리량 (바이트/사이클)^[73] SM 파티션당^[74]	colspan="1" \| colspan="1"	colspan="1"
FP 텐서 코어: 워프 전체 행렬 계산에 필요한 최소 사이클	colspan="1" \| colspan="1"
FP 텐서 코어: 전체 처리량을 위한 최소 행렬 형태 (바이트)^[75]	colspan="4" \|
INT 텐서 코어: 워프 전체 행렬 계산에 필요한 최소 사이클	colspan="3" \|
INT 텐서 코어: 전체 처리량을 위한 최소 행렬 형태 (바이트)	colspan="1" \| colspan="1" \| colspan="1"

FP64 텐서 코어 구성	8.0	8.6	8.7	8.9	9.0
FP64 단위의 점 곱셈 유닛 너비 (바이트)	colspan="2" \| \| colspan="1"
텐서 코어당 점 곱셈 유닛	colspan="2" \| \| colspan="1"
SM 파티션당 텐서 코어	colspan="5"
전체 처리량 (바이트/사이클)^[80] SM 파티션당^[81]	colspan="2" \| \| colspan="1"
워프 전체 행렬 계산에 필요한 최소 사이클	colspan="2" \|
전체 처리량을 위한 최소 행렬 형태 (바이트)^[82]	colspan="3" \|

기능 지원 (목록에 없는 기능은 모든 컴퓨트 기능에 대해 지원됨)	컴퓨트 기능 (버전)
기능 지원 (목록에 없는 기능은 모든 컴퓨트 기능에 대해 지원됨)	1.0, 1.1	1.2, 1.3	2.x	3.0	3.2	3.5, 3.7, 5.x, 6.x, 7.0, 7.2	7.5	8.x	9.0
워프 투표 함수 (__all(), __any())	아니오	예
워프 투표 함수 (__ballot())	아니오		예
메모리 펜스 함수 (__threadfence_system())
동기화 함수 (__syncthreads_count(), __syncthreads_and(), __syncthreads_or())
표면 함수
스레드 블록의 3D 그리드
워프 셔플 함수	아니오			예
통합 메모리 프로그래밍	아니오			예
퍼널 시프트	아니오				예
동적 병렬 처리	아니오					예
균일 데이터 경로^[56]	아니오						예
하드웨어 가속 비동기 복사	아니오							예
하드웨어 가속 분할 도착/대기 장벽
감소 연산을 위한 워프 레벨 지원
L2 캐시 상주 관리
가속화된 동적 프로그래밍을 위한 DPX 명령	아니오								예
분산 공유 메모리
스레드 블록 클러스터
텐서 메모리 가속기 (TMA) 유닛
기능 지원 (목록에 없는 기능은 모든 컴퓨트 기능에 대해 지원됨)	1.0,1.1	1.2,1.3	2.x	3.0	3.2	3.5, 3.7, 5.x, 6.x, 7.0, 7.2	7.5	8.x	9.0
컴퓨트 기능 (버전)

CUDA Toolkit 버전	지원되는 운영체제
6.5	Windows XP (32비트 버전만), Windows 7, Windows 8.1, Windows Server 2008 R2, Windows Server 2012 R2, Fedora 20, OpenSUSE 13.1, RHEL (Red Hat Enterprise Linux) 5/6, CentOS 5/6, SLES (SUSE Linux Enterprise Server) 11-SP3, Ubuntu 12.04/14.04, Mac OS X 10.8/10.9/10.10^[181]
7.0	Windows 7, Windows 8.1, Windows Server 2008 R2, Windows Server 2012 R2, Fedora 21, OpenSUSE 13.1/13.2, RHEL 6/7, CentOS 6/7, SLES 11/12, Ubuntu 12.04/14.04/14.10, OS X 10.9/10.10^[182]
7.5	Windows 7, Windows 8.1, Windows 10, Windows Server 2008 R2, Windows Server 2012 R2, Fedora 21, OpenSUSE 13.2, RHEL 6/7, CentOS 6/7, SLES 11/12, SteamOS 1.0-beta, Ubuntu 14.04/15.04, OS X 10.9/10.10/10.11^[183]
8.0 GA2	Windows 7, Windows 8.1, Windows 10, Windows Server 2008 R2, Windows Server 2012 R2, Windows Server 2016, Fedora 23, OpenSUSE 13.2, RHEL 6/7, CentOS 6/7, SLES 11/12, Ubuntu 14.04/16.04, OS X 10.11/10.12^[184]
9.2	Windows 7, Windows 8.1, Windows 10, Windows Server 2012 R2, Windows Server 2016, Fedora 27, OpenSUSE Leap 42.3, RHEL 6/7, CentOS 6/7, SLES 12, Ubuntu 16.04/17.10, OS X 10.13^[185]
10.2	Windows 7, Windows 8.1, Windows 10, Windows Server 2012 R2, Windows Server 2016, Windows Server 2019, Fedora 29, OpenSUSE 15, RHEL 6/7/8, CentOS 6/7/8, SLES 1512 SP4, Ubuntu 16.04/18.04, OS X 10.13^[186]
11.8	Windows 10, Windows 11, Windows Server 2016, Windows Server 2019, Windows Server 2022, Fedora 35, OpenSUSE 15, RHEL 7/8/9, CentOS 7, SLES 15, Ubuntu 18.04/20.04/22.04, Debian 11, Kylin (operating system)\|KylinOS^영어 10, Rocky 8/9, WSL-Ubuntu 2.0^[187]
12.1	Windows 10, Windows 11, Windows Server 2019, Windows Server 2022, Fedora 37, OpenSUSE 15, RHEL 7/8/9, CentOS 7, SLES 15, Ubuntu 18.04/20.04/22.04, Debian 10/11, KylinOS 10, Rocky 8/9, WSL-Ubuntu 2.0^[192]

CUDA SDK 버전	테슬라	페르미	케플러 (초기)	케플러 (후기)	맥스웰	파스칼	볼타	튜링	암페어	에이다 러브레이스	호퍼
1.0^[38]	1.0 – 1.1
1.1	1.0 – 1.1+x
2.0	1.0 – 1.1+x
2.1 – 2.3.1^[39]^[40]^[41]^[42]	1.0 – 1.3
3.0 – 3.1^[43]^[44]	1.0	2.0
3.2^[45]	1.0	2.1
4.0 – 4.2	1.0	2.1
5.0 – 5.5	1.0			3.5
6.0	1.0		3.2	3.5
6.5	1.1			3.7	5.x
7.0 – 7.5		2.0			5.x
8.0		2.0				6.x
9.0 – 9.2			3.0				7.0 – 7.2
10.0 – 10.2			3.0					7.5
11.0^[46]				3.5					8.0
11.1 – 11.4^[47]				3.5					8.6
11.5 – 11.7.1^[48]				3.5					8.7
11.8^[49]				3.5						8.9	9.0
12.0 – 12.5					5.0						9.0

분야	라이브러리	설명
수학	cuBLAS	BLAS 라이브러리
	cuFFT	고속 푸리에 변환
	CUDA Math Library
	cuRAND	의사 난수 생성
	cuSOLVER	LAPACK 지원
	cuSPARSE	희소 행렬
	cuTENSOR	텐서 (다차원 배열)
	cuDSS	희소 행렬의 AX = B를 푸는 라이브러리
AmgX
병렬 알고리즘	Thrust
전산 리소그래피	cuLitho
이미지와 비디오	CV-CUDA
	nvJPEG
	NVIDIA Performance Primitives
	NVIDIA Video Codec SDK
	NVIDIA Optical Flow SDK
통신 라이브러리	NVSHMEM
통신 라이브러리	NCCL
딥 러닝	NVIDIA cuDNN
	NVIDIA TensorRT
	NVIDIA Riva
	NVIDIA DeepStream SDK
	NVIDIA DALI