엔비디아 테슬라

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

엔비디아 테슬라는 엔비디아의 데이터 센터 및 고성능 컴퓨팅(HPC)용 GPU 제품군이다. 2007년부터 다양한 마이크로아키텍처를 기반으로 출시되었으며, 모델, 마이크로아키텍처, 출시 시기, 코어 구성, 메모리, 처리 능력, CUDA 컴퓨팅 성능, 열 설계 전력(TDP)에 따라 성능이 다르다. 테슬라 제품은 시뮬레이션, 대규모 계산, 전문 및 과학 분야의 이미지 생성에 활용되며, 방위 산업 및 지리 공간 정보 시장에서도 사용된다. 주요 마이크로아키텍처로는 테슬라, 페르미, 케플러, 맥스웰, 파스칼, 볼타, 튜링, 암페어, 호퍼가 있으며, 각 아키텍처는 CUDA 코어 수, 메모리 용량, 연산 성능 등에서 차이를 보인다.

엔비디아 테슬라
개요
종류범용 그래픽 카드
제조사엔비디아
출시일2007년 5월 2일
단종일2020년 5월 (현재 엔비디아 데이터 센터 GPU로 브랜드 변경)
기술 정보
용도GPGPU (General Purpose GPU)
제품 라인업
엔트리 레벨해당 사항 없음
미드레인지해당 사항 없음
하이엔드해당 사항 없음
소프트웨어 지원
Direct3D 버전해당 사항 없음
📚 더 읽어볼만한 페이지
  • 엔비디아의 그래픽 처리 장치 - 지포스
    엔비디아의 그래픽 카드 제품군인 지포스는 GPU를 이용한 기하 연산 가속화에 기여하며 PC 그래픽 기술 발전을 이끌어왔고, 다양한 시리즈를 거쳐 현재 최신 40 시리즈까지 혁신적인 기술을 선보이고 있다.
  • 엔비디아의 그래픽 처리 장치 - 쿼드로
    쿼드로는 엔비디아가 개발한 전문가용 그래픽 카드 시리즈이며, 워크스테이션 및 비즈니스 환경에 적합하도록 설계되어 3D 모델링, 시뮬레이션, 영상 편집 등 전문적인 작업에 사용된다.
  • GPGPU - 인텔 Xe
    인텔 Xe는 저전력부터 고성능 컴퓨팅까지 다양한 시장을 목표로 하는 인텔의 GPU 아키텍처 제품군으로, Xe-LP, Xe-HPG, Xe-HP, Xe-HPC 등의 하위 아키텍처를 가지며 외장 그래픽 카드인 인텔 아크 시리즈와 내장 그래픽, 데이터 센터용 GPU 등에 활용된다.
  • GPGPU - 테라스케일 (마이크로아키텍처)
    테라스케일은 AMD가 개발한 GPU 마이크로아키텍처로, 셰이더 처리량 증가를 위해 통합 셰이더 모델을 사용하며, VLIW 아키텍처를 기반으로 라데온 HD 2000, 3000, 4000, 5000, 6900 시리즈에 적용되었다가 그래픽스 코어 넥스트 아키텍처로 대체되었다.
  • 코프로세서 - 제온 파이
    제온 파이는 인텔에서 개발한 x86 기반 메니코어 프로세서로, 나이츠 페리, 나이츠 코너, 나이츠 랜딩, 나이츠 밀 등의 모델이 있으며, AVX-512 명령어 세트 지원을 통해 고성능 컴퓨팅 환경에서 복잡한 연산을 효율적으로 처리하는 데 중점을 둔다.
  • 코프로세서 - AMD 인스팅트
    AMD 인스팅트는 고성능 컴퓨팅 및 인공지능 워크로드를 위해 AMD에서 개발한 데이터 센터용 GPU 가속기 제품군으로, ROCm 소프트웨어 스택을 통해 지원되며 다양한 소프트웨어 기능과 API를 제공한다.

2. 역사

마이크로프로세서에 비해 계산 전력(플롭스로 측정)이 매우 높아 테슬라 제품들은 고성능 컴퓨팅을 위해 개발되었다. 테슬라 제품은 영상을 디스플레이로 출력하는 기능이 없어 흔히 쓰이는 그래픽 카드와 구분된다. 테슬라 제품들의 주된 기능은 시뮬레이션, 대규모 계산 (특히 부동소수점 계산), 전문 및 과학 분야의 영상물 생산을 CUDA를 이용하여 보조하는 것이다.

엔비디아 테슬라 C2075
엔비디아 테슬라 C2075

전통적인 마이크로프로세서보다 훨씬 더 큰 연산 능력을 제공하는 테슬라 제품군은 고성능 컴퓨팅 시장을 목표로 했다. 2012년 현재, 엔비디아 테슬라는 오크리지 국립 연구소의 서밋중국 톈진의 톈허-1A를 포함하여 세계에서 가장 빠른 슈퍼컴퓨터의 일부를 구동한다.

테슬라 카드는 단정밀도 성능이 비슷한 페르미 기반 엔비디아 지포스 카드보다 4배 더 높은 배정밀도 성능을 가지고 있다. 엔비디아의 소비자용 지포스 카드 및 전문가용 엔비디아 쿼드로 카드와 달리, 테슬라 카드는 원래 디스플레이에 이미지를 출력할 수 없었다. 그러나 마지막 테슬라 C 클래스 제품에는 듀얼 링크 DVI 포트가 하나 포함되었다.

3. 주요 특징

엔비디아 테슬라는 부동 소수점 연산에서 범용 CPU보다 높은 성능을 제공하며, 고성능 컴퓨팅 시장을 겨냥하여 TOP500 슈퍼컴퓨터에 다수 채용되었다.

테슬라 시리즈는 C2050/C2070을 제외하면 디스플레이 출력을 지원하지 않아 연산에 특화되었으며, 이는 GeForce나 Quadro와 구별되는 특징이다. 기계 학습의 딥 러닝, 시뮬레이션, 대규모 계산(특히 부동 소수점 연산), 고품질 이미지 생성 등에 주로 사용되며, CUDA, OpenCL, DirectCompute 등의 API를 활용한다.

Kepler 세대 이후 Tesla는 353.06 드라이버에서 OpenCL 1.2를 지원하지만, G80부터 Fermi까지는 OpenCL 1.1까지만 지원한다. AMD의 AMD FireStream (AMD FirePro S 시리즈)이 경쟁 제품이다.

3.1. 성능

테슬라 제품들은 고성능 컴퓨팅을 위해 개발되었으며, 계산 전력(플롭스로 측정)이 매우 높다. 영상을 디스플레이로 출력하는 기능이 부족한 것이 테슬라 제품과 흔히 쓰이는 그래픽 카드와의 주된 차이점이다. 테슬라 제품들의 주된 기능은 시뮬레이션, 대규모 계산 (특히 부동소수점 계산), 전문 및 과학 분야의 영상물 생산을 CUDA를 이용하여 보조하는 것이다.

엔비디아 테슬라 C2075
엔비디아 테슬라 C2075

전통적인 마이크로프로세서보다 훨씬 더 큰 연산 능력을 제공하는 테슬라 제품군은 고성능 컴퓨팅 시장을 목표로 했다. 현재, 엔비디아 테슬라는 오크리지 국립 연구소의 서밋중국 톈진의 톈허-1A를 포함하여 세계에서 가장 빠른 슈퍼컴퓨터의 일부를 구동한다.

테슬라 카드는 단정밀도 성능이 비슷한 페르미 기반 엔비디아 지포스 카드보다 4배 더 높은 배정밀도 성능을 가지고 있다.

엔비디아의 소비자용 지포스 카드 및 전문가용 엔비디아 쿼드로 카드와 달리, 테슬라 카드는 원래 디스플레이에 이미지를 출력할 수 없었다. 그러나 마지막 테슬라 C 클래스 제품에는 듀얼 링크 DVI 포트가 하나 포함되었다.

성능은 단정밀도/배정밀도 부동 소수점 이론 연산 성능(피크 시)이다.

3.2. 기술

최근의 마이크로프로세서에 견주어 계산 전력(플롭스로 측정)이 매우 높아서 테슬라 제품들은 고성능 컴퓨팅을 위하여 개발되었다. 영상을 디스플레이로 출력하는 기능이 부족한 것이 테슬라 제품과 흔히 쓰이는 그래픽 카드와의 주된 차이점이다. 테슬라 제품들의 주된 기능은 시뮬레이션, 대규모 계산 (특히 부동소수점 계산), 전문 및 과학 분야의 영상물 생산을 CUDA를 이용하여 보조하는 것이다.

엔비디아 테슬라 C2075
엔비디아 테슬라 C2075

전통적인 마이크로프로세서보다 훨씬 더 큰 연산 능력을 제공하는 테슬라 제품군은 고성능 컴퓨팅 시장을 목표로 했다. 현재, 엔비디아 테슬라는 오크리지 국립 연구소의 서밋중국 톈진의 톈허-1A를 포함하여 세계에서 가장 빠른 슈퍼컴퓨터의 일부를 구동한다.

테슬라 카드는 단정밀도 성능이 비슷한 페르미 기반 엔비디아 지포스 카드보다 4배 더 높은 배정밀도 성능을 가지고 있다.
엔비디아의 소비자용 지포스 카드 및 전문가용 엔비디아 쿼드로 카드와 달리, 테슬라 카드는 원래 디스플레이에 이미지를 출력할 수 없었다. 그러나 마지막 테슬라 C 클래스 제품에는 듀얼 링크 DVI 포트가 하나 포함되었다.

3.3. 활용 분야

최근의 마이크로프로세서에 견주어 계산 전력(플롭스로 측정)이 매우 높아 테슬라 제품들은 고성능 컴퓨팅을 위하여 개발되었다. 영상을 디스플레이로 출력하는 기능이 부족한 것이 테슬라 제품과 흔히 쓰이는 그래픽 카드와의 주된 차이점이다. 테슬라 제품들의 주된 기능은 시뮬레이션, 대규모 계산 (특히 부동소수점 계산), 전문 및 과학 분야의 영상물 생산을 CUDA를 이용하여 보조하는 것이다.

테슬라 제품은 주로 시뮬레이션과 대규모 계산(특히 부동 소수점 계산)에 사용되며, 전문 및 과학 분야의 고급 이미지 생성에도 활용된다.

범용 CPU에 비해 부동 소수점 연산 성능이 높고, 고성능 컴퓨팅 시장에서의 사용을 의도한 제품으로, TOP500슈퍼컴퓨터에서도 다수 채용되고 있다. 주요 용도는 기계 학습의 딥 러닝, 시뮬레이션, 대규모 계산 (특히 부동 소수점 연산), 고품질 이미지 생성 등이며, API로 CUDAOpenCL, DirectCompute를 사용한다.

또한 동사 제품인 GeForce나 Quadro와는 달리, Tesla 시리즈는 C2050/C2070 등을 제외하고 디스플레이 출력을 지원하지 않으며, 완전히 연산 용도에 특화되어 있다.

경쟁 상대는 AMD의 AMD FireStream (AMD FirePro S 시리즈)이다.

4. 모델

엔비디아 테슬라의 모델별 규격 및 구성은 다음과 같다.

👆
좌우로 밀어서 보기
모델마이크로
아키텍처
출시코어코어 클럭
(MHz)
셰이더메모리처리 능력(TFLOPS)CUDA
컴퓨팅
성능
TDP
(W)
비고, 폼 팩터
CUDA 코어
(총)
기본 클럭 (MHz)최대 부스트
클럭 (MHz)
버스 유형버스 폭
(비트)
크기
(GB)
클럭
(MT/s)
대역폭
(GB/s)
반정밀도
텐서 코어 FP32 누적
단정밀도
(MAD 또는 FMA)
배정밀도
(FMA)
C870 GPU 컴퓨팅 모듈테슬라2007년 5월 2일1× G806001281,350GDDR33841.51,60076.80.34561.0170.9내부 PCIe GPU (전체 높이, 듀얼 슬롯)
D870 데스크사이드 컴퓨터2007년 5월 2일2× G806002561,350GDDR32× 3842× 1.51,6002× 76.80.69121.0520데스크사이드 또는 3U 랙 마운트 외부 GPU
S870 GPU 컴퓨팅 서버2007년 5월 2일4× G806005121,350GDDR34× 3844× 1.51,6004× 76.81.38241.01U 랙 마운트 외부 GPU, 2× PCIe (×16)를 통해 연결
C1060 GPU 컴퓨팅 모듈2009년 4월 9일1× GT2006022401,296GDDR351241,600102.40.622080.077761.3187.8내부 PCIe GPU (전체 높이, 듀얼 슬롯)
S1070 GPU 컴퓨팅 서버 "400 구성"2008년 6월 1일4× GT2006029601296GDDR34× 5124× 41,538.44× 98.52.48830.3111.38001U 랙 마운트 외부 GPU, 2× PCIe (×8 또는 ×16)를 통해 연결
S1070 GPU 컴퓨팅 서버 "500 구성"2008년 6월 1일1,4402,.76480.3456
S1075 GPU 컴퓨팅 서버2008년 6월 1일4× GT2006029601,440GDDR34× 5124× 41,538.44× 98.52.76480.34561.31U 랙 마운트 외부 GPU, 1× PCIe (×8 또는 ×16)를 통해 연결
Quadro Plex 2200 D2 비주얼 컴퓨팅 시스템2008년 7월 25일2× GT200GL6484801,296GDDR32× 5122× 41,6002× 102.41.24420.15551.34개의 듀얼 링크 DVI 출력이 있는 데스크사이드 또는 3U 랙 마운트 외부 GPU
Quadro Plex 2200 S4 비주얼 컴퓨팅 시스템2008년 7월 25일4× GT200GL6489601,296GDDR34× 5124× 41,6004× 102.42.48830.3111.31,2001U 랙 마운트 외부 GPU, 2× PCIe (×8 또는 ×16)를 통해 연결
C2050 GPU 컴퓨팅 모듈페르미2011년 7월 25일1× GF1005754481,150GDDR5384330001441.03040.51522.0247내부 PCIe GPU (전체 높이, 듀얼 슬롯)
M2050 GPU 컴퓨팅 모듈2011년 7월 25일3,092148.4225
C2070 GPU 컴퓨팅 모듈2011년 7월 25일1× GF1005754481,150GDDR538463,0001441.03040.51522.0247내부 PCIe GPU (전체 높이, 듀얼 슬롯)
C2075 GPU 컴퓨팅 모듈2011년 7월 25일3,000144225
M2070/M2070Q GPU 컴퓨팅 모듈2011년 7월 25일3,132150.336225
M2090 GPU 컴퓨팅 모듈2011년 7월 25일1× GF1106505121,300GDDR538463700177.61.33120.66562.0225내부 PCIe GPU (전체 높이, 듀얼 슬롯)
S2050 GPU 컴퓨팅 서버2011년 7월 25일4× GF10057517921150GDDR54× 3844× 334× 148.44.12162.06082.09001U 랙 마운트 외부 GPU, 2× PCIe (×8 또는 ×16)를 통해 연결
S2070 GPU 컴퓨팅 서버2011년 7월 25일4× 6
K10 GPU 가속기케플러2012년 5월 1일2× GK1043,072745GDDR52× 2562× 45,0002× 1604.5770.19073.0225내부 PCIe GPU (전체 높이, 듀얼 슬롯)
K20 GPU 가속기2012년 11월 12일1× GK1102,496706758GDDR532055,2002083.5241.1753.5225내부 PCIe GPU (전체 높이, 듀얼 슬롯)
K20X GPU 가속기2012년 11월 12일1× GK1102,688732GDDR538465,2002503.9351.3123.5235내부 PCIe GPU (전체 높이, 듀얼 슬롯)
K40 GPU 가속기2013년 10월 8일1× GK110B2,880745875GDDR5384126,0002884.291–5.0401.430–1.6803.5235내부 PCIe GPU (전체 높이, 듀얼 슬롯)
K80 GPU 가속기2014년 11월 17일2× GK2104,992560875GDDR52× 3842× 125,0002× 2405.591–8.7361.864–2.9123.7300내부 PCIe GPU (전체 높이, 듀얼 슬롯)
M4 GPU 가속기맥스웰2015년 11월 10일1× GM2061,0248721,072GDDR512845,500881.786–2.1950.05581–0.068615.250–75내부 PCIe GPU (반 높이, 단일 슬롯)
M6 GPU 가속기2015년 8월 30일1× GM204-995-A115367221,051GDDR525684,600147.22.218–3.2290.0693–0.10095.275–100내부 MXM GPU
M10 GPU 가속기2016년 5월 18일4× GM1072,5601,033GDDR54× 1284× 85,1884× 835.2890.16535.2225내부 PCIe GPU (전체 높이, 듀얼 슬롯)
M40 GPU 가속기2015년 11월 10일1× GM2003,0729481,114GDDR538412 또는 246,0002885.825–6.8440.182–0.21395.2250내부 PCIe GPU (전체 높이, 듀얼 슬롯)
M60 GPU 가속기2015년 8월 30일2× GM204-895-A14,0968991,178GDDR52× 2562× 85,0002× 1607.365–9.6500.2301–0.30165.2225–300내부 PCIe GPU (전체 높이, 듀얼 슬롯)
P4 GPU 가속기파스칼2016년 9월 13일1× GP1042,5608101,063GDDR525686,000192.04.147–5.4430.1296–0.17016.150-75PCIe 카드
P6 GPU 가속기2017년 3월 24일1× GP104-995-A12,0481,0121,506GDDR5256163,003192.26.1690.19286.190MXM 카드
P40 GPU 가속기2016년 9월 13일1× GP1023,8401,3031,531GDDR5384247,200345.610.007–11.7580.3127–0.36746.1250PCIe 카드
P100 GPU 가속기 (메자닌)2016년 4월 5일1× GP100-890-A13,5841,3281,480HBM24,096161,4307329.519–10.6094.760–5.3046.0300SXM 카드
P100 GPU 가속기 (16 GB 카드)2016년 6월 20일1× GP100112613038,071‒9,3404,036‒4,670250PCIe 카드
P100 GPU 가속기 (12 GB 카드)2016년 6월 20일3,072125498.071‒9,3404.036‒4,670
V100 GPU 가속기 (메자닌)볼타2017년 5월 10일1× GV100-895-A151201,455HBM24,09616 또는 321,750900119.19214.8997.4507.0300SXM 카드
V100 GPU 가속기 (PCIe 카드)2017년 6월 21일1× GV1001,370112.22414.0287.014250PCIe 카드
V100 GPU 가속기 (PCIe FHHL 카드)2018년 3월 27일1× GV1009371,290161,620829.44105.6813.216.605250PCIe FHHL 카드
T4 GPU 가속기 (PCIe 카드)튜링2018년 9월 12일1× TU104-895-A12,5605851,590GDDR6256165,00032064.88.17.570PCIe 카드
A2 GPU 가속기 (PCIe 카드)암페어2021년 11월 10일1× GA1071,2801,4401,770GDDR6128166,25220018.1244.5310.148.640-60PCIe 카드 (반 높이, 단일 슬롯)
A10 GPU 가속기 (PCIe 카드)2021년 4월 12일1× GA102-890-A19,2168851,695GDDR6384246,252600124.9631.240.9768.6150PCIe 카드 (단일 슬롯)
A16 GPU 가속기 (PCIe 카드)2021년 4월 12일4× GA1074× 1,2808851,695GDDR64× 1284× 167,2424× 2004x 18.4324× 4.6081.08488.6250PCIe 카드 (듀얼 슬롯)
A30 GPU 가속기 (PCIe 카드)2021년 4월 12일1× GA1003,5849301,440HBM23,072241,215933.1165.1210.325.1618.0165PCIe 카드 (듀얼 슬롯)
A40 GPU 가속기 (PCIe 카드)2020년 10월 5일1× GA10210,7521,3051,740GDDR6384487,248695.8149.6837.421.1688.6250PCIe 카드 (듀얼 슬롯)
A100 PCIe1691210876514101555HBM2512040 / 80불명19.59.7불명풀 하이트/2슬롯
A100 SXM1555
2039
불명SXM영어


전통적인 마이크로프로세서보다 훨씬 더 큰 연산 능력을 제공하는 테슬라 제품군은 고성능 컴퓨팅 시장을 목표로 했다.

테슬라 카드는 단정밀도 성능이 비슷한 페르미 기반 엔비디아 지포스 카드보다 4배 더 높은 배정밀도 성능을 가지고 있다.

엔비디아의 소비자용 지포스 카드 및 전문가용 엔비디아 쿼드로 카드와 달리, 테슬라 카드는 원래 디스플레이에 이미지를 출력할 수 없었다. 그러나 마지막 테슬라 C 클래스 제품에는 듀얼 링크 DVI 포트가 하나 포함되었다.

4.1. 테슬라 마이크로아키텍처

엔비디아 테슬라 C2075
엔비디아 테슬라 C2075

테슬라 마이크로아키텍처의 규격 및 구성은 다음과 같다.

👆
좌우로 밀어서 보기
구성모델GPU 수코어 클럭
(각 단위 MHz)
셰이더메모리처리 전력
(기가플롭스, 전체)
계산 능력5폼 팩터
및 기능
스레드 프로세서 (전체)클럭 (각 단위 MHz)최대 대역 (GB/초)버스 유형버스 너비 (비트, 각 GPU)전체 크기 (MiB)클럭 (MHz)
GPU 컴퓨팅
프로세서1
C8701600128135077GDDR3384153616005191.0완전한 크기의 그래픽 카드
데스크사이드 슈퍼컴퓨터1D87026002 x 128 (256)1350154GDDR33843072160010371.0데스크사이드 시스템 / 랙 유닛
GPU 컴퓨팅
서버1
S87046004 x 128 (512)1350307GDDR33846144160020741.01U 랙
C1060
컴퓨팅 프로세서 2
C106016022401300102GDDR351240961600933 단일 정밀도 (SP)
78 이중 정밀도 (DP)
1.3완전한 크기의 그래픽 카드
IEEE 754-2008 기능
S1070 1U
GPU 컴퓨팅
서버4,5
S107046024 x 240 (960)1500410GDDR35121638416004140 단일 정밀도 (SP)
345 이중 정밀도 (DP)
1.31U 랙
IEEE 754-2008 기능
C2050
GPU 컴퓨팅 프로세서 3
C20501512GDDR538430721040 단일 정밀도 (SP)
520 이중 정밀도 (DP)
완전한 크기의 그래픽 카드
IEEE 754-2008 FMA 기능
C2070
GPU 컴퓨팅 프로세서 3
C20701512GDDR538461441260 단일 정밀도 (SP)
630 이중 정밀도 (DP)
완전한 크기의 그래픽 카드
IEEE 754-2008 FMA 기능
S2050 1U
GPU 컴퓨팅
시스템
S205044 x 512 (2048)GDDR538412288???? 단일 정밀도 (SP)
2100 이중 정밀도 (DP)
1U 랙
IEEE 754-2008 FMA 기능
S2070 1U
GPU 컴퓨팅
시스템
S207044 x 512 (2048)GDDR538424576???? 단일 정밀도 (SP)
2500 이중 정밀도 (DP)
1U 랙
IEEE 754-2008 FMA 기능


참고
* 1 엔비디아에서 지정하지 않은 규격은 지포스 8800GTX로 추측한다.
* 2 엔비디아에서 지정하지 않은 규격은 지포스 GTX 285로 추측한다.
* 3 엔비디아에서 지정하지 않은 규격은 지포스 300으로 추측한다.
* 4 호스트 시스템/서버는 PCI 익스프레스 카드에 의해 1U GPU 컴퓨팅 서버에 연결할 것을 요구 받는다. (엔비디아 쿼드로 플렉스와 설정 방법이 비슷함)
* 5 쿠다 프로그래밍 안내에 따른 코어 아키텍처 버전.

2007년 6월 20일 발표되었다. G80 기반의 x870 시리즈는 단정밀도 부동 소수점 연산만 지원하며, 배정밀도 부동 소수점 연산은 실행할 수 없다.

👆
좌우로 밀어서 보기
구성모델명GPU 수그래픽 클럭 (MHz)CUDA메모리성능
단정밀도
(TFLOPS)
성능
배정밀도
(TFLOPS)
형태 등
CUDA 코어 수CUDA 코어 클럭 (MHz)최대 대역폭 (GB/s)버스 규격버스 폭 (bit)총 용량 (GiB)클럭 (GHz)
GPU 컴퓨팅 프로세서1C8701600128135077GDDR33841.51.60.519N/A풀 하이트 비디오 카드
데스크 사이트 슈퍼컴퓨터1D87026002561350154GDDR338431.61.037N/A데스크 사이드 시스템/랙 마운트 장치
GPU 컴퓨팅 서버1S87046005121350307GDDR338461.62.074N/A1U 랙
C1060
컴퓨팅 프로세서2
C106016022401296102GDDR351240.8000.9330.078풀 하이트 비디오 카드
IEEE 754r 기능
S1070 1U
GPU 컴퓨팅 서버2
S10704602960
(240×4)
1296/1440408
(102×4)
GDDR351216
(4×4)
?3.73/4.140.311/0.3451U 랙
IEEE 754r 기능


주석
* 1 NVIDIA가 밝히지 않은 사양에 대해서는, GeForce 8800 GTX에서 추측.
* 2 NVIDIA가 밝히지 않은 사양에 대해서는, GeForce GTX 280에서 추측.

4.2. 페르미 마이크로아키텍처

2009년11월 6일 발표되었다. 페르미 마이크로아키텍처는 하프 레이트(Half Rate)의 배정밀도 연산 성능을 실현했다(배정밀도의 이론 연산 성능은 단정밀도의 1/2이 된다).

👆
좌우로 밀어서 보기
기종명GPU 수그래픽 클럭 (MHz)CUDA메모리성능
단정밀도
(TFLOPS)
성능
배정밀도
(TFLOPS)
형태 등
CUDA 코어 수CUDA 코어 클럭 (MHz)최대 대역폭 (GB/s)버스 규격버스 폭 (bit)총 용량 (GiB)클럭 (GHz)
C20503, 5 15754481150144GDDR538431.51.030.515풀 하이트 비디오 카드
IEEE 754r 기능
화면 출력 기능 포함
C20703, 515754481150144GDDR538461.51.030.515
C20753, 6 15754481150144GDDR538461.51.030.515
M205015754481150148GDDR538431.5461.030.515풀 하이트/
패시브 히트싱크 형
M207015754481150150GDDR538461.5661.030.515
M209016505121300177GDDR538461.851.3310.665
S2050457517921150148GDDR5384121.554.132.061U 랙

주석
* 3 NVIDIA가 밝히지 않은 사양에 대해서는, Quadro 6000에서의 추측.
* 5 GF100 (Quadro 6000/GeForce GTX 480) 기반
* 6 GF110 기반

4.3. 케플러 마이크로아키텍처

엔비디아 테슬라 C2075
엔비디아 테슬라 C2075

케플러 마이크로아키텍처는 이전 세대인 페르미 마이크로아키텍처의 SM (스트리밍 멀티프로세서)을 개선하여 SMX라는 새로운 명칭을 사용한다. GK104/GK110 칩의 각 SMX는 다음과 같은 주요 유닛을 포함한다.

* 192개의 CUDA 코어 (16개의 CUDA 코어를 1개의 그룹으로 묶어 총 12개의 그룹으로 구성)
* 64K개의 32비트 레지스터 (총 256KB)
* 64KB의 L1 캐시 (이 중 16KB, 32KB, 또는 48KB를 공유 메모리로 사용 가능하며, 공유 메모리는 1사이클에 최대 256B를 읽을 수 있다.)
* 48KB의 읽기 전용 캐시
* 32개의 특수 함수 유닛 (SFU) - 삼각함수, 로그 함수 등 특수 함수 계산

페르미와 마찬가지로, 각 스레드(코어)는 워프(warp) 단위로 동작한다. (1워프는 32스레드). 워프 내 스레드는 동기화되어 동일한 명령을 실행한다. 16개의 CUDA 코어가 1그룹이므로, 32개의 스레드에 명령을 전달하기 위해서는 2사이클 이상이 필요하다. 케플러 세대에서는 워프 내에서 공유 메모리를 거치지 않고 데이터를 교환할 수 있는 셔플 명령이 추가되었다.

GK104는 512KB, GK110/GK210은 1536KB (1.5MB)의 L2 캐시를 모든 SMX에서 공유하며, 이 캐시를 통해 DRAM에 접근한다.

Compute capability (CC)는 GK104는 CC 3.0, GK110은 CC 3.5, GK210은 CC 3.7이며, CC 3.5 이상에서는 Dynamic Parallelism 및 Hyper-Q와 같은 기능을 제공한다.

👆
좌우로 밀어서 보기
기종명GPU 수CUDA메모리성능
단정밀도
(TFLOPS)
성능
배정밀도
(TFLOPS)
형태 등
CUDA 코어 수SMX 수CUDA 코어 클럭 (MHz)최대 대역폭 (GB/s)버스 규격버스 폭 (bit)총 용량 (GiB)클럭 (GHz)
K8 7115368693
811 (부스트)
160GDDR525682.52.13
2.49 (부스트)
0.09
0.10 (부스트)
풀 하이트/1슬롯형
K10 823072
(1536x2)
8x2745320
(160x2)
GDDR52568
(4x2)
2.54.577
(2.288x2)
0.191
(0.095x2)
풀 하이트/
패시브 히트싱크형
K201249613706208GDDR532052.63.521.17
K20X1268814732250GDDR538462.63.951.31
K401288015745
875 (부스트)
288GDDR53841234.29
5 (부스트)
1.43
K8024992
(2496x2)
13x2562
875 (부스트)
480
(240x2)
GDDR5384242.55.6
8.74 (부스트)
1.87


주석
* 7 GK104 기반
* 8 GK104 (지포스 GTX 690 기반)

최초의 케플러 기반 제품인 Tesla K10은 2012년 5월 16일에 발표되었다. GK104 기반의 K10은 단정밀도 연산 성능은 높지만, 배정밀도 연산 성능은 단정밀도의 1/24로 매우 낮아 과학 기술 계산용이 아닌 신호 처리영상 처리용 솔루션으로 사용된다. GK110 기반의 K20 및 K40, GK210 기반의 K80은 배정밀도 연산 성능이 단정밀도의 1/3이다. 2014년에 발표된 Tesla K8도 GK104 기반이지만, Tesla 시리즈 최초의 1슬롯 소형 제품이다.

4.4. 맥스웰 마이크로아키텍처

엔비디아 테슬라 M4, M40은 주로 기계 학습, 딥 러닝을 위한 솔루션으로 제공되었다. 맥스웰은 케플러보다 배정밀도 지원이 줄어들어 단정밀도의 1/32 수준이다.

👆
좌우로 밀어서 보기
기종명GPU 수CUDA메모리성능
단정밀도
(TFLOPS)
성능
배정밀도
(TFLOPS)
형태 등
CUDA 코어 수SM 수CUDA 코어 클럭 (MHz)최대 대역폭 (GB/s)버스 규격버스 폭 (bit)총 용량 (GiB)클럭 (GHz)
M6 1153612950147.3GDDR525682.53.6 (Boost)0.11 (Boost)MXM
M60 24096
(2048x2)
32899320GDDR525616
(8x2)
2.59.650.3풀 하이트
M4 11024851788GDDR512842.752.2 (Boost)0.07 (Boost)로우 프로파일/
패시브
M40 1307224948
1114 (Boost)
288GDDR53841235.8
6.8 (Boost)
0.18
0.21 (Boost)
풀 하이트/
패시브 히트싱크형

4.5. 파스칼 마이크로아키텍처

엔비디아 테슬라 P100은 2016년 4월에 처음 발표되었다. 16nm 공정 규칙을 채택했다. GP100 기반의 P100은 페르미 세대와 같이 하프 레이트의 배정밀도 연산 외에도 더블 레이트의 반정밀도 연산도 지원한다(반정밀도의 이론 연산 성능은 단정밀도의 2배). 메모리에는 2세대 고대역폭 메모리 (HBM2)를 채택했다. 엔비디아 고유의 인터커넥트 규격인 NVLink도 지원하며, 지금까지 프로세서 간 통신의 병목 현상이었던 PCI Express를 크게 넘어선 전송 대역폭을 실현할 수 있다.

GP102 기반의 P40 및 GP104 기반의 P4는 배정밀도 이론 연산 성능이 단정밀도의 1/32이다. 또한, SM당 CUDA 코어 수는 128, 공유 메모리도 96KB로 맥스웰 아키텍처에 가깝다.

👆
좌우로 밀어서 보기
기종명GPU 수CUDA메모리성능
단정밀도
(TFLOPS)
성능
배정밀도
(TFLOPS)
형태 등
CUDA 코어 수SM 수CUDA 코어 클럭 (MHz)최대 대역폭 (GB/s)버스 규격버스 폭 (bit)총 용량 (GiB)클럭 (GHz)
P4 1256020810
1063 (부스트)
192GDDR5256834.15
5.44 (부스트)
0.13
0.17 (부스트)
로우 프로파일
P40 13840301303
1531 (부스트)
346GDDR5384247.2510.01
11.76 (부스트)
0.31
0.36(부스트)
풀 하이트
P100 PCIe 13584561189
1328 (부스트)
540 / 720HBM2409612 / 160.7159.5 (부스트)4.8 (부스트)풀 하이트/패시브
P100 SXM2 13583561328
1480 (부스트)
720HBM24096160.71510.6 (부스트)5.3 (부스트)NVLink/패시브

4.6. 튜링 마이크로아키텍처

엔비디아 테슬라 T4는 2018년 9월에 출시되었으며, 튜링 마이크로아키텍처를 기반으로 한다. T4 GPU 가속기는 1개의 TU104-895-A1 GPU를 탑재하고 있다.

👆
좌우로 밀어서 보기
모델명GPU 수CUDA메모리성능
단정밀도
(TFLOPS)
성능
배정밀도
(TFLOPS)
형태 등
CUDA 코어 수SM 수CUDA 코어 클럭 (MHz)최대 대역폭 (GB/s)버스 규격버스 폭 (bit)총 용량 (GiB)클럭 (GHz)
T41256040585320GDDR6256161.258.1불명풀 하이트


세부 규격

* CUDA 코어: 2560개
* SM (스트리밍 멀티프로세서): 40개
* CUDA 코어 클럭: 585 MHz (기본), 1590 MHz (부스트)
* 메모리:
* 최대 대역폭: 320GB/s
* 버스 규격: GDDR6
* 버스 폭: 256 bit
* 총 용량: 16 GiB
* 클럭: 1.25 GHz
* 성능:
* 단정밀도: 8.1 TFLOPS
* 배정밀도: 불명
* 형태: 풀 하이트

4.7. 암페어 마이크로아키텍처

엔비디아 암페어 마이크로아키텍처는 이전 세대보다 향상된 성능을 제공하는 GPU 기술이다. 다음은 암페어 마이크로아키텍처 기반 테슬라 제품군의 규격 및 구성 정보이다.

👆
좌우로 밀어서 보기
모델명GPU 수CUDA메모리성능
단정밀도
(TFLOPS)
성능
배정밀도
(TFLOPS)
폼 팩터 등
CUDA 코어 수SM 수CUDA 코어 클럭 (MHz)최대 대역폭 (GB/s)버스 규격버스 폭 (bit)총 용량 (GiB)클럭 (GHz)
A211280불명1440
1770 (Boost)
200GDDR6128166.254.5310.14하프 하이트
A101921684885
1695 (Boost)
600GDDR638424불명31.240.976풀 하이트
A1645120
(1280x4)
20885
1695 (Boost)
800
(200x4)
GDDR6128x464
(16x4)
6.2518.432
(4.608x4)
1.0848풀 하이트/2슬롯
A3013584128930
1440 (Boost)
933HBM23072241.21510.325.161풀 하이트/2슬롯
A40110752841305
1740 (Boost)
696GDDR6384487.25137.421.168풀 하이트/2슬롯
A100 PCIe16912108765
1410 (Boost)
1555HBM2512040 / 80불명19.59.7풀 하이트/2슬롯
A100 SXM1555
2039
불명SXM영어


엔비디아 테슬라 C2075
엔비디아 테슬라 C2075

4.8. 호퍼 마이크로아키텍처

2022년 3월에 첫 제품인 테슬라 H100이 출시되었다.

👆
좌우로 밀어서 보기
모델명CUDA 코어 수SM 수CUDA 코어 클럭 (MHz)메모리 최대 대역폭 (GB/s)메모리 버스 규격메모리 버스 폭 (bit)총 용량 (GiB)메모리 클럭 (GHz)단정밀도 성능 (TFLOPS)배정밀도 성능 (TFLOPS)형태 등
H100 PCIe145921141065 (부스트 1650)2000HBM2e512080불명4824풀 하이트/2 슬롯
H100 SXM168961321065 (부스트 1650)3350HBM3512080불명6030SXM
H200 SXM4800HBM3e141불명6734SXM