엔비디아 테슬라

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

엔비디아 테슬라는 엔비디아의 데이터 센터 및 고성능 컴퓨팅(HPC)용 GPU 제품군이다. 2007년부터 다양한 마이크로아키텍처를 기반으로 출시되었으며, 모델, 마이크로아키텍처, 출시 시기, 코어 구성, 메모리, 처리 능력, CUDA 컴퓨팅 성능, 열 설계 전력(TDP)에 따라 성능이 다르다. 테슬라 제품은 시뮬레이션, 대규모 계산, 전문 및 과학 분야의 이미지 생성에 활용되며, 방위 산업 및 지리 공간 정보 시장에서도 사용된다. 주요 마이크로아키텍처로는 테슬라, 페르미, 케플러, 맥스웰, 파스칼, 볼타, 튜링, 암페어, 호퍼가 있으며, 각 아키텍처는 CUDA 코어 수, 메모리 용량, 연산 성능 등에서 차이를 보인다.

엔비디아 테슬라

개요

종류	범용 그래픽 카드
제조사	엔비디아
출시일	2007년 5월 2일
단종일	2020년 5월 (현재 엔비디아 데이터 센터 GPU로 브랜드 변경)

기술 정보

용도	GPGPU (General Purpose GPU)

제품 라인업

엔트리 레벨	해당 사항 없음
미드레인지	해당 사항 없음
하이엔드	해당 사항 없음

소프트웨어 지원

Direct3D 버전	해당 사항 없음

📚 더 읽어볼만한 페이지

엔비디아의 그래픽 처리 장치 - 지포스
엔비디아의 그래픽 카드 제품군인 지포스는 GPU를 이용한 기하 연산 가속화에 기여하며 PC 그래픽 기술 발전을 이끌어왔고, 다양한 시리즈를 거쳐 현재 최신 40 시리즈까지 혁신적인 기술을 선보이고 있다.
엔비디아의 그래픽 처리 장치 - 쿼드로
쿼드로는 엔비디아가 개발한 전문가용 그래픽 카드 시리즈이며, 워크스테이션 및 비즈니스 환경에 적합하도록 설계되어 3D 모델링, 시뮬레이션, 영상 편집 등 전문적인 작업에 사용된다.
GPGPU - 인텔 Xe
인텔 Xe는 저전력부터 고성능 컴퓨팅까지 다양한 시장을 목표로 하는 인텔의 GPU 아키텍처 제품군으로, Xe-LP, Xe-HPG, Xe-HP, Xe-HPC 등의 하위 아키텍처를 가지며 외장 그래픽 카드인 인텔 아크 시리즈와 내장 그래픽, 데이터 센터용 GPU 등에 활용된다.
GPGPU - 테라스케일 (마이크로아키텍처)
테라스케일은 AMD가 개발한 GPU 마이크로아키텍처로, 셰이더 처리량 증가를 위해 통합 셰이더 모델을 사용하며, VLIW 아키텍처를 기반으로 라데온 HD 2000, 3000, 4000, 5000, 6900 시리즈에 적용되었다가 그래픽스 코어 넥스트 아키텍처로 대체되었다.
코프로세서 - 제온 파이
제온 파이는 인텔에서 개발한 x86 기반 메니코어 프로세서로, 나이츠 페리, 나이츠 코너, 나이츠 랜딩, 나이츠 밀 등의 모델이 있으며, AVX-512 명령어 세트 지원을 통해 고성능 컴퓨팅 환경에서 복잡한 연산을 효율적으로 처리하는 데 중점을 둔다.
코프로세서 - AMD 인스팅트
AMD 인스팅트는 고성능 컴퓨팅 및 인공지능 워크로드를 위해 AMD에서 개발한 데이터 센터용 GPU 가속기 제품군으로, ROCm 소프트웨어 스택을 통해 지원되며 다양한 소프트웨어 기능과 API를 제공한다.

1. 개요
2. 역사
3. 주요 특징
4. 모델

2. 역사

마이크로프로세서에 비해 계산 전력(플롭스로 측정)이 매우 높아 테슬라 제품들은 고성능 컴퓨팅을 위해 개발되었다. 테슬라 제품은 영상을 디스플레이로 출력하는 기능이 없어 흔히 쓰이는 그래픽 카드와 구분된다. 테슬라 제품들의 주된 기능은 시뮬레이션, 대규모 계산 (특히 부동소수점 계산), 전문 및 과학 분야의 영상물 생산을 CUDA를 이용하여 보조하는 것이다.

전통적인 마이크로프로세서보다 훨씬 더 큰 연산 능력을 제공하는 테슬라 제품군은 고성능 컴퓨팅 시장을 목표로 했다. 2012년 현재, 엔비디아 테슬라는 오크리지 국립 연구소의 서밋과 중국 톈진의 톈허-1A를 포함하여 세계에서 가장 빠른 슈퍼컴퓨터의 일부를 구동한다.

테슬라 카드는 단정밀도 성능이 비슷한 페르미 기반 엔비디아 지포스 카드보다 4배 더 높은 배정밀도 성능을 가지고 있다. 엔비디아의 소비자용 지포스 카드 및 전문가용 엔비디아 쿼드로 카드와 달리, 테슬라 카드는 원래 디스플레이에 이미지를 출력할 수 없었다. 그러나 마지막 테슬라 C 클래스 제품에는 듀얼 링크 DVI 포트가 하나 포함되었다.

3. 주요 특징

엔비디아 테슬라는 부동 소수점 연산에서 범용 CPU보다 높은 성능을 제공하며, 고성능 컴퓨팅 시장을 겨냥하여 TOP500 슈퍼컴퓨터에 다수 채용되었다.

테슬라 시리즈는 C2050/C2070을 제외하면 디스플레이 출력을 지원하지 않아 연산에 특화되었으며, 이는 GeForce나 Quadro와 구별되는 특징이다. 기계 학습의 딥 러닝, 시뮬레이션, 대규모 계산(특히 부동 소수점 연산), 고품질 이미지 생성 등에 주로 사용되며, CUDA, OpenCL, DirectCompute 등의 API를 활용한다.

Kepler 세대 이후 Tesla는 353.06 드라이버에서 OpenCL 1.2를 지원하지만, G80부터 Fermi까지는 OpenCL 1.1까지만 지원한다. AMD의 AMD FireStream (AMD FirePro S 시리즈)이 경쟁 제품이다.

3.1. 성능

테슬라 제품들은 고성능 컴퓨팅을 위해 개발되었으며, 계산 전력(플롭스로 측정)이 매우 높다. 영상을 디스플레이로 출력하는 기능이 부족한 것이 테슬라 제품과 흔히 쓰이는 그래픽 카드와의 주된 차이점이다. 테슬라 제품들의 주된 기능은 시뮬레이션, 대규모 계산 (특히 부동소수점 계산), 전문 및 과학 분야의 영상물 생산을 CUDA를 이용하여 보조하는 것이다.

전통적인 마이크로프로세서보다 훨씬 더 큰 연산 능력을 제공하는 테슬라 제품군은 고성능 컴퓨팅 시장을 목표로 했다. 현재, 엔비디아 테슬라는 오크리지 국립 연구소의 서밋과 중국 톈진의 톈허-1A를 포함하여 세계에서 가장 빠른 슈퍼컴퓨터의 일부를 구동한다.

테슬라 카드는 단정밀도 성능이 비슷한 페르미 기반 엔비디아 지포스 카드보다 4배 더 높은 배정밀도 성능을 가지고 있다.

엔비디아의 소비자용 지포스 카드 및 전문가용 엔비디아 쿼드로 카드와 달리, 테슬라 카드는 원래 디스플레이에 이미지를 출력할 수 없었다. 그러나 마지막 테슬라 C 클래스 제품에는 듀얼 링크 DVI 포트가 하나 포함되었다.

성능은 단정밀도/배정밀도 부동 소수점 이론 연산 성능(피크 시)이다.

3.2. 기술

최근의 마이크로프로세서에 견주어 계산 전력(플롭스로 측정)이 매우 높아서 테슬라 제품들은 고성능 컴퓨팅을 위하여 개발되었다. 영상을 디스플레이로 출력하는 기능이 부족한 것이 테슬라 제품과 흔히 쓰이는 그래픽 카드와의 주된 차이점이다. 테슬라 제품들의 주된 기능은 시뮬레이션, 대규모 계산 (특히 부동소수점 계산), 전문 및 과학 분야의 영상물 생산을 CUDA를 이용하여 보조하는 것이다.

전통적인 마이크로프로세서보다 훨씬 더 큰 연산 능력을 제공하는 테슬라 제품군은 고성능 컴퓨팅 시장을 목표로 했다. 현재, 엔비디아 테슬라는 오크리지 국립 연구소의 서밋과 중국 톈진의 톈허-1A를 포함하여 세계에서 가장 빠른 슈퍼컴퓨터의 일부를 구동한다.

테슬라 카드는 단정밀도 성능이 비슷한 페르미 기반 엔비디아 지포스 카드보다 4배 더 높은 배정밀도 성능을 가지고 있다.
엔비디아의 소비자용 지포스 카드 및 전문가용 엔비디아 쿼드로 카드와 달리, 테슬라 카드는 원래 디스플레이에 이미지를 출력할 수 없었다. 그러나 마지막 테슬라 C 클래스 제품에는 듀얼 링크 DVI 포트가 하나 포함되었다.

3.3. 활용 분야

최근의 마이크로프로세서에 견주어 계산 전력(플롭스로 측정)이 매우 높아 테슬라 제품들은 고성능 컴퓨팅을 위하여 개발되었다. 영상을 디스플레이로 출력하는 기능이 부족한 것이 테슬라 제품과 흔히 쓰이는 그래픽 카드와의 주된 차이점이다. 테슬라 제품들의 주된 기능은 시뮬레이션, 대규모 계산 (특히 부동소수점 계산), 전문 및 과학 분야의 영상물 생산을 CUDA를 이용하여 보조하는 것이다.

테슬라 제품은 주로 시뮬레이션과 대규모 계산(특히 부동 소수점 계산)에 사용되며, 전문 및 과학 분야의 고급 이미지 생성에도 활용된다.

범용 CPU에 비해 부동 소수점 연산 성능이 높고, 고성능 컴퓨팅 시장에서의 사용을 의도한 제품으로, TOP500의 슈퍼컴퓨터에서도 다수 채용되고 있다. 주요 용도는 기계 학습의 딥 러닝, 시뮬레이션, 대규모 계산 (특히 부동 소수점 연산), 고품질 이미지 생성 등이며, API로 CUDA나 OpenCL, DirectCompute를 사용한다.

또한 동사 제품인 GeForce나 Quadro와는 달리, Tesla 시리즈는 C2050/C2070 등을 제외하고 디스플레이 출력을 지원하지 않으며, 완전히 연산 용도에 특화되어 있다.

경쟁 상대는 AMD의 AMD FireStream (AMD FirePro S 시리즈)이다.

4. 모델

엔비디아 테슬라의 모델별 규격 및 구성은 다음과 같다.

👆

좌우로 밀어서 보기

모델	마이크로 아키텍처	출시	코어	코어 클럭 (MHz)	셰이더			메모리					처리 능력(TFLOPS)			CUDA 컴퓨팅 성능	TDP (W)	비고, 폼 팩터
모델	마이크로 아키텍처	출시	코어	코어 클럭 (MHz)	CUDA 코어 (총)	기본 클럭 (MHz)	최대 부스트 클럭 (MHz)	버스 유형	버스 폭 (비트)	크기 (GB)	클럭 (MT/s)	대역폭 (GB/s)	반정밀도 텐서 코어 FP32 누적	단정밀도 (MAD 또는 FMA)	배정밀도 (FMA)	CUDA 컴퓨팅 성능	TDP (W)	비고, 폼 팩터
C870 GPU 컴퓨팅 모듈	테슬라	2007년 5월 2일	1× G80	600	128	1,350		GDDR3	384	1.5	1,600	76.8		0.3456		1.0	170.9	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
D870 데스크사이드 컴퓨터		2007년 5월 2일	2× G80	600	256	1,350		GDDR3	2× 384	2× 1.5	1,600	2× 76.8		0.6912		1.0	520	데스크사이드 또는 3U 랙 마운트 외부 GPU
S870 GPU 컴퓨팅 서버		2007년 5월 2일	4× G80	600	512	1,350		GDDR3	4× 384	4× 1.5	1,600	4× 76.8		1.3824		1.0		1U 랙 마운트 외부 GPU, 2× PCIe (×16)를 통해 연결
C1060 GPU 컴퓨팅 모듈		2009년 4월 9일	1× GT200	602	240	1,296		GDDR3	512	4	1,600	102.4		0.62208	0.07776	1.3	187.8	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
S1070 GPU 컴퓨팅 서버 "400 구성"		2008년 6월 1일	4× GT200	602	960	1296		GDDR3	4× 512	4× 4	1,538.4	4× 98.5		2.4883	0.311	1.3	800	1U 랙 마운트 외부 GPU, 2× PCIe (×8 또는 ×16)를 통해 연결
S1070 GPU 컴퓨팅 서버 "500 구성"		2008년 6월 1일	4× GT200	602	960	1,440		GDDR3	4× 512	4× 4	1,538.4	4× 98.5		2,.7648	0.3456	1.3	800	1U 랙 마운트 외부 GPU, 2× PCIe (×8 또는 ×16)를 통해 연결
S1075 GPU 컴퓨팅 서버		2008년 6월 1일	4× GT200	602	960	1,440		GDDR3	4× 512	4× 4	1,538.4	4× 98.5		2.7648	0.3456	1.3		1U 랙 마운트 외부 GPU, 1× PCIe (×8 또는 ×16)를 통해 연결
Quadro Plex 2200 D2 비주얼 컴퓨팅 시스템		2008년 7월 25일	2× GT200GL	648	480	1,296		GDDR3	2× 512	2× 4	1,600	2× 102.4		1.2442	0.1555	1.3		4개의 듀얼 링크 DVI 출력이 있는 데스크사이드 또는 3U 랙 마운트 외부 GPU
Quadro Plex 2200 S4 비주얼 컴퓨팅 시스템		2008년 7월 25일	4× GT200GL	648	960	1,296		GDDR3	4× 512	4× 4	1,600	4× 102.4		2.4883	0.311	1.3	1,200	1U 랙 마운트 외부 GPU, 2× PCIe (×8 또는 ×16)를 통해 연결
C2050 GPU 컴퓨팅 모듈	페르미	2011년 7월 25일	1× GF100	575	448	1,150		GDDR5	384	3	3000	144		1.0304	0.5152	2.0	247	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
M2050 GPU 컴퓨팅 모듈		2011년 7월 25일	1× GF100	575	448	1,150		GDDR5	384	3	3,092	148.4		1.0304	0.5152	2.0	225	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
C2070 GPU 컴퓨팅 모듈		2011년 7월 25일	1× GF100	575	448	1,150		GDDR5	384	6	3,000	144		1.0304	0.5152	2.0	247	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
C2075 GPU 컴퓨팅 모듈		2011년 7월 25일									3,000	144					225
M2070/M2070Q GPU 컴퓨팅 모듈		2011년 7월 25일									3,132	150.336					225
M2090 GPU 컴퓨팅 모듈		2011년 7월 25일	1× GF110	650	512	1,300		GDDR5	384	6	3700	177.6		1.3312	0.6656	2.0	225	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
S2050 GPU 컴퓨팅 서버		2011년 7월 25일	4× GF100	575	1792	1150		GDDR5	4× 384	4× 3	3	4× 148.4		4.1216	2.0608	2.0	900	1U 랙 마운트 외부 GPU, 2× PCIe (×8 또는 ×16)를 통해 연결
S2070 GPU 컴퓨팅 서버		2011년 7월 25일	4× GF100	575	1792	1150		GDDR5	4× 384	4× 6	3	4× 148.4		4.1216	2.0608	2.0	900	1U 랙 마운트 외부 GPU, 2× PCIe (×8 또는 ×16)를 통해 연결
K10 GPU 가속기	케플러	2012년 5월 1일	2× GK104		3,072	745		GDDR5	2× 256	2× 4	5,000	2× 160		4.577	0.1907	3.0	225	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
K20 GPU 가속기		2012년 11월 12일	1× GK110		2,496	706	758	GDDR5	320	5	5,200	208		3.524	1.175	3.5	225	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
K20X GPU 가속기		2012년 11월 12일	1× GK110		2,688	732		GDDR5	384	6	5,200	250		3.935	1.312	3.5	235	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
K40 GPU 가속기		2013년 10월 8일	1× GK110B		2,880	745	875	GDDR5	384	12	6,000	288		4.291–5.040	1.430–1.680	3.5	235	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
K80 GPU 가속기		2014년 11월 17일	2× GK210		4,992	560	875	GDDR5	2× 384	2× 12	5,000	2× 240		5.591–8.736	1.864–2.912	3.7	300	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
M4 GPU 가속기	맥스웰	2015년 11월 10일	1× GM206		1,024	872	1,072	GDDR5	128	4	5,500	88		1.786–2.195	0.05581–0.06861	5.2	50–75	내부 PCIe GPU (반 높이, 단일 슬롯)
M6 GPU 가속기		2015년 8월 30일	1× GM204-995-A1		1536	722	1,051	GDDR5	256	8	4,600	147.2		2.218–3.229	0.0693–0.1009	5.2	75–100	내부 MXM GPU
M10 GPU 가속기		2016년 5월 18일	4× GM107		2,560	1,033		GDDR5	4× 128	4× 8	5,188	4× 83		5.289	0.1653	5.2	225	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
M40 GPU 가속기		2015년 11월 10일	1× GM200		3,072	948	1,114	GDDR5	384	12 또는 24	6,000	288		5.825–6.844	0.182–0.2139	5.2	250	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
M60 GPU 가속기		2015년 8월 30일	2× GM204-895-A1		4,096	899	1,178	GDDR5	2× 256	2× 8	5,000	2× 160		7.365–9.650	0.2301–0.3016	5.2	225–300	내부 PCIe GPU (전체 높이, 듀얼 슬롯)
P4 GPU 가속기	파스칼	2016년 9월 13일	1× GP104		2,560	810	1,063	GDDR5	256	8	6,000	192.0		4.147–5.443	0.1296–0.1701	6.1	50-75	PCIe 카드

P6 GPU 가속기		2017년 3월 24일	1× GP104-995-A1		2,048	1,012	1,506	GDDR5	256	16	3,003	192.2		6.169	0.1928	6.1	90	MXM 카드

P40 GPU 가속기		2016년 9월 13일	1× GP102		3,840	1,303	1,531	GDDR5	384	24	7,200	345.6		10.007–11.758	0.3127–0.3674	6.1	250	PCIe 카드

P100 GPU 가속기 (메자닌)	2016년 4월 5일	1× GP100-890-A1		3,584	1,328	1,480	HBM2	4,096	16	1,430	732		9.519–10.609	4.760–5.304	6.0	300	SXM 카드
								4,096	16		732
P100 GPU 가속기 (16 GB 카드)	2016년 6월 20일	1× GP100			1126	1303			8,071‒9,340		4,036‒4,670	250	PCIe 카드
		1× GP100			1126	1303						250	PCIe 카드
P100 GPU 가속기 (12 GB 카드)	2016년 6월 20일		3,072	12	549		8.071‒9,340	4.036‒4,670
V100 GPU 가속기 (메자닌)	볼타	2017년 5월 10일	1× GV100-895-A1		5120		1,455	HBM2	4,096	16 또는 32	1,750	900	119.192	14.899	7.450	7.0	300	SXM 카드
										16 또는 32	1,750	900
V100 GPU 가속기 (PCIe 카드)		2017년 6월 21일	1× GV100				1,370			112.224	14.028	7.014	250	PCIe 카드
V100 GPU 가속기 (PCIe FHHL 카드)	2018년 3월 27일	1× GV100		937	1,290	16	1,620	829.44	105.68	13.21	6.605	250	PCIe FHHL 카드
T4 GPU 가속기 (PCIe 카드)	튜링	2018년 9월 12일	1× TU104-895-A1		2,560	585	1,590	GDDR6	256	16	5,000	320	64.8	8.1		7.5	70	PCIe 카드
A2 GPU 가속기 (PCIe 카드)	암페어	2021년 11월 10일	1× GA107		1,280	1,440	1,770	GDDR6	128	16	6,252	200	18.124	4.531	0.14	8.6	40-60	PCIe 카드 (반 높이, 단일 슬롯)
A10 GPU 가속기 (PCIe 카드)		2021년 4월 12일	1× GA102-890-A1		9,216	885	1,695	GDDR6	384	24	6,252	600	124.96	31.24	0.976	8.6	150	PCIe 카드 (단일 슬롯)
A16 GPU 가속기 (PCIe 카드)		2021년 4월 12일	4× GA107		4× 1,280	885	1,695	GDDR6	4× 128	4× 16	7,242	4× 200	4x 18.432	4× 4.608	1.0848	8.6	250	PCIe 카드 (듀얼 슬롯)
A30 GPU 가속기 (PCIe 카드)		2021년 4월 12일	1× GA100		3,584	930	1,440	HBM2	3,072	24	1,215	933.1	165.12	10.32	5.161	8.0	165	PCIe 카드 (듀얼 슬롯)
A40 GPU 가속기 (PCIe 카드)		2020년 10월 5일	1× GA102		10,752	1,305	1,740	GDDR6	384	48	7,248	695.8	149.68	37.42	1.168	8.6	250	PCIe 카드 (듀얼 슬롯)
A100 PCIe		1	6912	108	765	1410	1555	HBM2	5120	40 / 80	불명	19.5	9.7	불명	풀 하이트/2슬롯
A100 SXM	1555 2039	1	6912	108	765	1410	불명	HBM2	5120	40 / 80	SXM^영어	19.5	9.7	불명

전통적인 마이크로프로세서보다 훨씬 더 큰 연산 능력을 제공하는 테슬라 제품군은 고성능 컴퓨팅 시장을 목표로 했다.

테슬라 카드는 단정밀도 성능이 비슷한 페르미 기반 엔비디아 지포스 카드보다 4배 더 높은 배정밀도 성능을 가지고 있다.

엔비디아의 소비자용 지포스 카드 및 전문가용 엔비디아 쿼드로 카드와 달리, 테슬라 카드는 원래 디스플레이에 이미지를 출력할 수 없었다. 그러나 마지막 테슬라 C 클래스 제품에는 듀얼 링크 DVI 포트가 하나 포함되었다.

4.1. 테슬라 마이크로아키텍처

테슬라 마이크로아키텍처의 규격 및 구성은 다음과 같다.

👆

좌우로 밀어서 보기

구성	모델	GPU 수	코어 클럭 (각 단위 MHz)	셰이더		메모리					처리 전력 (기가플롭스, 전체)	계산 능력⁵	폼 팩터 및 기능
구성	모델	GPU 수	코어 클럭 (각 단위 MHz)	스레드 프로세서 (전체)	클럭 (각 단위 MHz)	최대 대역 (GB/초)	버스 유형	버스 너비 (비트, 각 GPU)	전체 크기 (MiB)	클럭 (MHz)	처리 전력 (기가플롭스, 전체)	계산 능력⁵	폼 팩터 및 기능
GPU 컴퓨팅 프로세서¹	C870	1	600	128	1350	77	GDDR3	384	1536	1600	519	1.0	완전한 크기의 그래픽 카드
데스크사이드 슈퍼컴퓨터¹	D870	2	600	2 x 128 (256)	1350	154	GDDR3	384	3072	1600	1037	1.0	데스크사이드 시스템 / 랙 유닛
GPU 컴퓨팅 서버¹	S870	4	600	4 x 128 (512)	1350	307	GDDR3	384	6144	1600	2074	1.0	1U 랙
C1060 컴퓨팅 프로세서 ²	C1060	1	602	240	1300	102	GDDR3	512	4096	1600	933 단일 정밀도 (SP) 78 이중 정밀도 (DP)	1.3	완전한 크기의 그래픽 카드 IEEE 754-2008 기능
S1070 1U GPU 컴퓨팅 서버^4,5	S1070	4	602	4 x 240 (960)	1500	410	GDDR3	512	16384	1600	4140 단일 정밀도 (SP) 345 이중 정밀도 (DP)	1.3	1U 랙 IEEE 754-2008 기능
C2050 GPU 컴퓨팅 프로세서 ³	C2050	1		512			GDDR5	384	3072		1040 단일 정밀도 (SP) 520 이중 정밀도 (DP)		완전한 크기의 그래픽 카드 IEEE 754-2008 FMA 기능
C2070 GPU 컴퓨팅 프로세서 ³	C2070	1		512			GDDR5	384	6144		1260 단일 정밀도 (SP) 630 이중 정밀도 (DP)		완전한 크기의 그래픽 카드 IEEE 754-2008 FMA 기능
S2050 1U GPU 컴퓨팅 시스템	S2050	4		4 x 512 (2048)			GDDR5	384	12288		???? 단일 정밀도 (SP) 2100 이중 정밀도 (DP)		1U 랙 IEEE 754-2008 FMA 기능
S2070 1U GPU 컴퓨팅 시스템	S2070	4		4 x 512 (2048)			GDDR5	384	24576		???? 단일 정밀도 (SP) 2500 이중 정밀도 (DP)		1U 랙 IEEE 754-2008 FMA 기능

참고
* ¹ 엔비디아에서 지정하지 않은 규격은 지포스 8800GTX로 추측한다.
* ² 엔비디아에서 지정하지 않은 규격은 지포스 GTX 285로 추측한다.
* ³ 엔비디아에서 지정하지 않은 규격은 지포스 300으로 추측한다.
* ⁴ 호스트 시스템/서버는 PCI 익스프레스 카드에 의해 1U GPU 컴퓨팅 서버에 연결할 것을 요구 받는다. (엔비디아 쿼드로 플렉스와 설정 방법이 비슷함)
* ⁵ 쿠다 프로그래밍 안내에 따른 코어 아키텍처 버전.

2007년 6월 20일 발표되었다. G80 기반의 x870 시리즈는 단정밀도 부동 소수점 연산만 지원하며, 배정밀도 부동 소수점 연산은 실행할 수 없다.

👆

좌우로 밀어서 보기

구성	모델명	GPU 수	그래픽 클럭 (MHz)	CUDA		메모리					성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	형태 등
구성	모델명	GPU 수	그래픽 클럭 (MHz)	CUDA 코어 수	CUDA 코어 클럭 (MHz)	최대 대역폭 (GB/s)	버스 규격	버스 폭 (bit)	총 용량 (GiB)	클럭 (GHz)	성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	형태 등
GPU 컴퓨팅 프로세서¹	C870	1	600	128	1350	77	GDDR3	384	1.5	1.6	0.519	N/A	풀 하이트 비디오 카드
데스크 사이트 슈퍼컴퓨터¹	D870	2	600	256	1350	154	GDDR3	384	3	1.6	1.037	N/A	데스크 사이드 시스템/랙 마운트 장치
GPU 컴퓨팅 서버¹	S870	4	600	512	1350	307	GDDR3	384	6	1.6	2.074	N/A	1U 랙
C1060 컴퓨팅 프로세서²	C1060	1	602	240	1296	102	GDDR3	512	4	0.800	0.933	0.078	풀 하이트 비디오 카드 IEEE 754r 기능
S1070 1U GPU 컴퓨팅 서버²	S1070	4	602	960 (240×4)	1296/1440	408 (102×4)	GDDR3	512	16 (4×4)	?	3.73/4.14	0.311/0.345	1U 랙 IEEE 754r 기능

주석
* ¹ NVIDIA가 밝히지 않은 사양에 대해서는, GeForce 8800 GTX에서 추측.
* ² NVIDIA가 밝히지 않은 사양에 대해서는, GeForce GTX 280에서 추측.

4.2. 페르미 마이크로아키텍처

2009년11월 6일 발표되었다. 페르미 마이크로아키텍처는 하프 레이트(Half Rate)의 배정밀도 연산 성능을 실현했다(배정밀도의 이론 연산 성능은 단정밀도의 1/2이 된다).

👆

좌우로 밀어서 보기

기종명	GPU 수	그래픽 클럭 (MHz)	CUDA		메모리					성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	형태 등
기종명	GPU 수	그래픽 클럭 (MHz)	CUDA 코어 수	CUDA 코어 클럭 (MHz)	최대 대역폭 (GB/s)	버스 규격	버스 폭 (bit)	총 용량 (GiB)	클럭 (GHz)	성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	형태 등
C2050^{3, 5}	1	575	448	1150	144	GDDR5	384	3	1.5	1.03	0.515	풀 하이트 비디오 카드 IEEE 754r 기능 화면 출력 기능 포함
C2070^{3, 5}	1	575	448	1150	144	GDDR5	384	6	1.5	1.03	0.515
C2075^{3, 6}	1	575	448	1150	144	GDDR5	384	6	1.5	1.03	0.515
M2050	1	575	448	1150	148	GDDR5	384	3	1.546	1.03	0.515	풀 하이트/ 패시브 히트싱크 형
M2070	1	575	448	1150	150	GDDR5	384	6	1.566	1.03	0.515
M2090	1	650	512	1300	177	GDDR5	384	6	1.85	1.331	0.665
S2050	4	575	1792	1150	148	GDDR5	384	12	1.55	4.13	2.06	1U 랙

주석
* ³ NVIDIA가 밝히지 않은 사양에 대해서는, Quadro 6000에서의 추측.
* ⁵ GF100 (Quadro 6000/GeForce GTX 480) 기반
* ⁶ GF110 기반

4.3. 케플러 마이크로아키텍처

케플러 마이크로아키텍처는 이전 세대인 페르미 마이크로아키텍처의 SM (스트리밍 멀티프로세서)을 개선하여 SMX라는 새로운 명칭을 사용한다. GK104/GK110 칩의 각 SMX는 다음과 같은 주요 유닛을 포함한다.

* 192개의 CUDA 코어 (16개의 CUDA 코어를 1개의 그룹으로 묶어 총 12개의 그룹으로 구성)
* 64K개의 32비트 레지스터 (총 256KB)
* 64KB의 L1 캐시 (이 중 16KB, 32KB, 또는 48KB를 공유 메모리로 사용 가능하며, 공유 메모리는 1사이클에 최대 256B를 읽을 수 있다.)
* 48KB의 읽기 전용 캐시
* 32개의 특수 함수 유닛 (SFU) - 삼각함수, 로그 함수 등 특수 함수 계산

페르미와 마찬가지로, 각 스레드(코어)는 워프(warp) 단위로 동작한다. (1워프는 32스레드). 워프 내 스레드는 동기화되어 동일한 명령을 실행한다. 16개의 CUDA 코어가 1그룹이므로, 32개의 스레드에 명령을 전달하기 위해서는 2사이클 이상이 필요하다. 케플러 세대에서는 워프 내에서 공유 메모리를 거치지 않고 데이터를 교환할 수 있는 셔플 명령이 추가되었다.

GK104는 512KB, GK110/GK210은 1536KB (1.5MB)의 L2 캐시를 모든 SMX에서 공유하며, 이 캐시를 통해 DRAM에 접근한다.

Compute capability (CC)는 GK104는 CC 3.0, GK110은 CC 3.5, GK210은 CC 3.7이며, CC 3.5 이상에서는 Dynamic Parallelism 및 Hyper-Q와 같은 기능을 제공한다.

👆

좌우로 밀어서 보기

기종명	GPU 수	CUDA			메모리					성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	형태 등
기종명	GPU 수	CUDA 코어 수	SMX 수	CUDA 코어 클럭 (MHz)	최대 대역폭 (GB/s)	버스 규격	버스 폭 (bit)	총 용량 (GiB)	클럭 (GHz)	성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	형태 등
K8 ⁷	1	1536	8	693 811 (부스트)	160	GDDR5	256	8	2.5	2.13 2.49 (부스트)	0.09 0.10 (부스트)	풀 하이트/1슬롯형
K10 ⁸	2	3072 (1536x2)	8x2	745	320 (160x2)	GDDR5	256	8 (4x2)	2.5	4.577 (2.288x2)	0.191 (0.095x2)	풀 하이트/ 패시브 히트싱크형
K20	1	2496	13	706	208	GDDR5	320	5	2.6	3.52	1.17
K20X	1	2688	14	732	250	GDDR5	384	6	2.6	3.95	1.31
K40	1	2880	15	745 875 (부스트)	288	GDDR5	384	12	3	4.29 5 (부스트)	1.43
K80	2	4992 (2496x2)	13x2	562 875 (부스트)	480 (240x2)	GDDR5	384	24	2.5	5.6 8.74 (부스트)	1.87

주석
* ⁷ GK104 기반
* ⁸ GK104 (지포스 GTX 690 기반)

최초의 케플러 기반 제품인 Tesla K10은 2012년 5월 16일에 발표되었다. GK104 기반의 K10은 단정밀도 연산 성능은 높지만, 배정밀도 연산 성능은 단정밀도의 1/24로 매우 낮아 과학 기술 계산용이 아닌 신호 처리 및 영상 처리용 솔루션으로 사용된다. GK110 기반의 K20 및 K40, GK210 기반의 K80은 배정밀도 연산 성능이 단정밀도의 1/3이다. 2014년에 발표된 Tesla K8도 GK104 기반이지만, Tesla 시리즈 최초의 1슬롯 소형 제품이다.

4.4. 맥스웰 마이크로아키텍처

엔비디아 테슬라 M4, M40은 주로 기계 학습, 딥 러닝을 위한 솔루션으로 제공되었다. 맥스웰은 케플러보다 배정밀도 지원이 줄어들어 단정밀도의 1/32 수준이다.

👆

좌우로 밀어서 보기

기종명	GPU 수	CUDA			메모리					성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	형태 등
기종명	GPU 수	CUDA 코어 수	SM 수	CUDA 코어 클럭 (MHz)	최대 대역폭 (GB/s)	버스 규격	버스 폭 (bit)	총 용량 (GiB)	클럭 (GHz)	성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	형태 등
M6	1	1536	12	950	147.3	GDDR5	256	8	2.5	3.6 (Boost)	0.11 (Boost)	MXM
M60	2	4096 (2048x2)	32	899	320	GDDR5	256	16 (8x2)	2.5	9.65	0.3	풀 하이트
M4	1	1024	8	517	88	GDDR5	128	4	2.75	2.2 (Boost)	0.07 (Boost)	로우 프로파일/ 패시브
M40	1	3072	24	948 1114 (Boost)	288	GDDR5	384	12	3	5.8 6.8 (Boost)	0.18 0.21 (Boost)	풀 하이트/ 패시브 히트싱크형

4.5. 파스칼 마이크로아키텍처

엔비디아 테슬라 P100은 2016년 4월에 처음 발표되었다. 16nm 공정 규칙을 채택했다. GP100 기반의 P100은 페르미 세대와 같이 하프 레이트의 배정밀도 연산 외에도 더블 레이트의 반정밀도 연산도 지원한다(반정밀도의 이론 연산 성능은 단정밀도의 2배). 메모리에는 2세대 고대역폭 메모리 (HBM2)를 채택했다. 엔비디아 고유의 인터커넥트 규격인 NVLink도 지원하며, 지금까지 프로세서 간 통신의 병목 현상이었던 PCI Express를 크게 넘어선 전송 대역폭을 실현할 수 있다.

GP102 기반의 P40 및 GP104 기반의 P4는 배정밀도 이론 연산 성능이 단정밀도의 1/32이다. 또한, SM당 CUDA 코어 수는 128, 공유 메모리도 96KB로 맥스웰 아키텍처에 가깝다.

👆

좌우로 밀어서 보기

기종명	GPU 수	CUDA			메모리					성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	형태 등
기종명	GPU 수	CUDA 코어 수	SM 수	CUDA 코어 클럭 (MHz)	최대 대역폭 (GB/s)	버스 규격	버스 폭 (bit)	총 용량 (GiB)	클럭 (GHz)	성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	형태 등
P4	1	2560	20	810 1063 (부스트)	192	GDDR5	256	8	3	4.15 5.44 (부스트)	0.13 0.17 (부스트)	로우 프로파일
P40	1	3840	30	1303 1531 (부스트)	346	GDDR5	384	24	7.25	10.01 11.76 (부스트)	0.31 0.36(부스트)	풀 하이트
P100 PCIe	1	3584	56	1189 1328 (부스트)	540 / 720	HBM2	4096	12 / 16	0.715	9.5 (부스트)	4.8 (부스트)	풀 하이트/패시브
P100 SXM2	1	3583	56	1328 1480 (부스트)	720	HBM2	4096	16	0.715	10.6 (부스트)	5.3 (부스트)	NVLink/패시브

4.6. 튜링 마이크로아키텍처

엔비디아 테슬라 T4는 2018년 9월에 출시되었으며, 튜링 마이크로아키텍처를 기반으로 한다. T4 GPU 가속기는 1개의 TU104-895-A1 GPU를 탑재하고 있다.

👆

좌우로 밀어서 보기

모델명	GPU 수	CUDA			메모리					성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	형태 등
모델명	GPU 수	CUDA 코어 수	SM 수	CUDA 코어 클럭 (MHz)	최대 대역폭 (GB/s)	버스 규격	버스 폭 (bit)	총 용량 (GiB)	클럭 (GHz)	성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	형태 등
T4	1	2560	40	585	320	GDDR6	256	16	1.25	8.1	불명	풀 하이트

세부 규격

* CUDA 코어: 2560개
* SM (스트리밍 멀티프로세서): 40개
* CUDA 코어 클럭: 585 MHz (기본), 1590 MHz (부스트)
* 메모리:
* 최대 대역폭: 320GB/s
* 버스 규격: GDDR6
* 버스 폭: 256 bit
* 총 용량: 16 GiB
* 클럭: 1.25 GHz
* 성능:
* 단정밀도: 8.1 TFLOPS
* 배정밀도: 불명
* 형태: 풀 하이트

4.7. 암페어 마이크로아키텍처

엔비디아 암페어 마이크로아키텍처는 이전 세대보다 향상된 성능을 제공하는 GPU 기술이다. 다음은 암페어 마이크로아키텍처 기반 테슬라 제품군의 규격 및 구성 정보이다.

👆

좌우로 밀어서 보기

모델명	GPU 수	CUDA			메모리					성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	폼 팩터 등
모델명	GPU 수	CUDA 코어 수	SM 수	CUDA 코어 클럭 (MHz)	최대 대역폭 (GB/s)	버스 규격	버스 폭 (bit)	총 용량 (GiB)	클럭 (GHz)	성능 단정밀도 (TFLOPS)	성능 배정밀도 (TFLOPS)	폼 팩터 등
A2	1	1280	불명	1440 1770 (Boost)	200	GDDR6	128	16	6.25	4.531	0.14	하프 하이트
A10	1	9216	84	885 1695 (Boost)	600	GDDR6	384	24	불명	31.24	0.976	풀 하이트
A16	4	5120 (1280x4)	20	885 1695 (Boost)	800 (200x4)	GDDR6	128x4	64 (16x4)	6.25	18.432 (4.608x4)	1.0848	풀 하이트/2슬롯
A30	1	3584	128	930 1440 (Boost)	933	HBM2	3072	24	1.215	10.32	5.161	풀 하이트/2슬롯
A40	1	10752	84	1305 1740 (Boost)	696	GDDR6	384	48	7.251	37.42	1.168	풀 하이트/2슬롯
A100 PCIe	1	6912	108	765 1410 (Boost)	1555	HBM2	5120	40 / 80	불명	19.5	9.7	풀 하이트/2슬롯
A100 SXM	1	6912	108	765 1410 (Boost)	1555 2039	HBM2	5120	40 / 80	불명	19.5	9.7	SXM^영어

4.8. 호퍼 마이크로아키텍처

2022년 3월에 첫 제품인 테슬라 H100이 출시되었다.

👆

좌우로 밀어서 보기

모델명	CUDA 코어 수	SM 수	CUDA 코어 클럭 (MHz)	메모리 최대 대역폭 (GB/s)	메모리 버스 규격	메모리 버스 폭 (bit)	총 용량 (GiB)	메모리 클럭 (GHz)	단정밀도 성능 (TFLOPS)	배정밀도 성능 (TFLOPS)	형태 등
H100 PCIe	14592	114	1065 (부스트 1650)	2000	HBM2e	5120	80	불명	48	24	풀 하이트/2 슬롯
H100 SXM	16896	132	1065 (부스트 1650)	3350	HBM3	5120	80	불명	60	30	SXM
H200 SXM				4800	HBM3e		141	불명	67	34	SXM