맨위로가기

플롭스

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

플롭스(FLOPS, FLoating-point Operations Per Second)는 컴퓨터의 부동 소수점 연산 속도를 나타내는 단위로, 연산식은 `cores × clock × FLOPs/cycle`로 계산된다. 플롭스는 PC, 서버, ARM, 게임 콘솔, 슈퍼컴퓨터, 분산 컴퓨팅, GPU, GPU 가속기, FPGA 등 다양한 하드웨어에서 측정되며, 하드웨어의 발전과 함께 연산 능력 및 단위당 하드웨어 비용 감소가 이루어졌다. 페타플롭스는 1초당 1,000조 번의 연산 처리를 의미하며, 슈퍼컴퓨터의 성능을 나타내는 지표로 사용된다.

더 읽어볼만한 페이지

  • 부동소수점 - IEEE 754
    IEEE 754는 부동소수점 숫자를 표현하고 처리하기 위한 국제 표준으로, 다양한 형식과 연산, 반올림 규칙, 예외 처리 등을 정의한다.
  • 부동소수점 - IEEE 754-1985
    IEEE 754-1985는 부동소수점 수의 표현, 연산, 반올림 등을 정의하는 기술 표준으로, 부호 비트, 지수, 가수를 사용하여 숫자를 표현하며, 단정밀도, 배정밀도, 확장 정밀도 형식을 제공하고, 0, 무한대, NaN과 같은 특수한 값을 정의하며, 표준 연산과 다양한 함수 및 술어를 제공한다.
  • 컴퓨터 벤치마크 - 벤치마크 (컴퓨팅)
    벤치마크는 컴퓨터 시스템 성능 측정 지표 또는 과정 자체를 의미하며, 시스템 성능 비교를 위해 특정 작업 시뮬레이션을 통해 시스템 또는 구성 요소의 성능을 측정하는 데 사용되지만, 결과가 과장되거나 다른 중요한 요소들을 간과할 수 있다는 문제점도 존재한다.
  • 컴퓨터 벤치마크 - 윈도우 시스템 평가 도구
    윈도우 시스템 평가 도구는 윈도우 비스타부터 도입된 시스템 성능 측정 도구로, CPU, 메모리, 그래픽 등 하드웨어 및 소프트웨어 구성 요소의 성능을 평가하여 윈도우 체험 지수를 제공한다.
  • 진동수의 단위 - 헤르츠
    헤르츠는 1초당 발생하는 주기적 현상의 빈도를 나타내는 SI 단위로, 세슘-133 원자의 초미세 분리 주파수를 기준으로 정의되며, 전자기파, 중력파, 컴퓨터 처리 속도 등 다양한 분야에서 주파수 측정에 활용되고 독일 물리학자 하인리히 루돌프 헤르츠의 이름을 땄다.
  • 진동수의 단위 - 베크렐
    베크렐은 1초당 1개의 원자핵 붕괴를 나타내는 방사능 활동량의 SI 단위로, 방사능 세기를 측정하며 퀴리와 러더퍼드 대신 사용되고, 방사능 농도 표시에 활용되지만, 방사선 위험성 평가는 흡수선량, 유효선량과 함께 고려해야 한다.
플롭스
기본 정보
유형부동소수점 연산 성능
측정 단위초당 부동소수점 연산 횟수
기원1960년대 후반
설명
설명컴퓨터 성능 측정에 사용되는 지표
관련 용어컴퓨터 성능, 벤치마크
활용
활용 분야과학 연구
인공지능
그래픽 처리

2. 연산식

플롭스 연산식은 다음과 같이 계산된다.[78]

:\text{FLOPS} = \text{cores} \times \text{clock} \times \frac{\text{FLOPs}}{\text{cycle}}

3. 대표적인 하드웨어의 부동 소수점 연산 능력

3. 1. PC (Intel)

인텔 CPU의 FLOPS 성능은 펜티엄부터 코어 i9까지 꾸준히 발전해왔다. 코어 수, 클럭, 배정밀도 FLOPS, 이론값/실측값, 이론값 계산식은 다음과 같다.[4][5][6][7][8]

이름코어 수클럭FLOPS(배정밀도)이론값/실측값이론값 계산식
펜티엄1 코어300MHz300 MFLOPS이론값1 FLOPS/클럭 × 300MHz
펜티엄 II1 코어450MHz450 MFLOPS이론값1 FLOPS/클럭 × 450MHz
펜티엄 III1 코어1.4GHz2.1 GFLOPS이론값1.5 FLOPS/클럭 × 1.4GHz
펜티엄 M1 코어2.26GHz3.39 GFLOPS이론값1.5 FLOPS/클럭 × 2.26GHz
펜티엄 41 코어3.8GHz7.6 GFLOPS이론값2 FLOPS/클럭 × 3.8GHz
펜티엄 D2 코어3.6GHz14.4 GFLOPS이론값2 FLOPS/클럭 × 3.6GHz × 2 코어
인텔 아톰(Bonnell)2 코어1.8GHz5.4 GFLOPS이론값1.5 FLOPS/클럭 × 1.8GHz × 2 코어
코어 솔로1 코어1.83GHz2.75 GFLOPS이론값1.5 FLOPS/클럭 × 1.83GHz
코어 듀오2 코어2.33GHz6.99 GFLOPS이론값1.5 FLOPS/클럭 × 2.33GHz × 2 코어
코어 2 듀오2 코어3.33GHz26.64 GFLOPS이론값4 FLOPS/클럭 × 3.33GHz × 2 코어
코어 2 익스트림4 코어3.2GHz51.2 GFLOPS이론값4 FLOPS/클럭 × 3.2GHz × 4 코어
코어 i7(네할렘)4 코어3.33GHz53.28 GFLOPS이론값4 FLOPS/클럭 × 3.33GHz × 4 코어
코어 i7(웨스트미어)6 코어3.46GHz83.04 GFLOPS이론값4 FLOPS/클럭 × 3.46GHz × 6 코어
코어 i7(샌디 브릿지)6 코어3.3GHz158.4 GFLOPS이론값8 FLOPS/클럭 × 3.3GHz × 6 코어
코어 i7(하스웰)8 코어3.0 GHz (베이스)
3.5 GHz (터보)
384 GFLOPS (베이스)
448 GFLOPS (터보)
이론값16 FLOPS/클럭 × 3.0 GHz × 8 코어
코어 i7(브로드웰)10 코어3.0 GHz (베이스)
3.5 GHz (터보)
480 GFLOPS (베이스)
560 GFLOPS (터보)
이론값16 FLOPS/클럭 × 3.0 GHz × 10 코어
코어 i9(로켓 레이크)8 코어5.2 GHz (터보)665 GFLOPS (터보)이론값16 FLOPS/클럭 × 5.2 GHz × 8 코어
코어 i9(앨더 레이크)P8/E85.2/4.0 GHz (터보)1.18 TFLOPS (터보)이론값16 FLOPS/클럭 × 5.2 GHz × 8 코어



코어 2 듀오는 클럭당 SSE를 통해 덧셈과 곱셈을 계산하여[9] 128비트 폭에서 배정밀도로 4 FLOPS/클럭을 달성했다. 샌디 브릿지에 탑재된 인텔 AVX는 256비트 폭으로 8 FLOPS/클럭을, 인텔 FMA는 융합 곱셈-덧셈 명령으로 1 명령에 곱셈과 덧셈 2 연산을 처리하여 16 FLOPS/클럭을 가능하게 했다.[10] 단정밀도의 경우 연산 횟수는 2배이다.[11] 아톰은 클럭당 1개의 SSE 덧셈 명령과 2 클럭당 1개의 SSE 곱셈 명령을 실행하여[12] 배정밀도로 3 FLOPS/클럭이다.

3. 2. 서버 (Intel)

wikitable

이름코어 수클럭FLOPS(배정밀도)이론값/실측값이론값 계산식참조
제온(Xeon)8 코어2.26 GHz72.32 GFLOPS이론값4 FLOPS/클럭 × 2.26 GHz × 8코어
제온(Xeon)10 코어2.4 GHz96 GFLOPS이론값4 FLOPS/클럭 × 2.4 GHz × 10코어
제온(Xeon)8 코어3.1 GHz198.4 GFLOPS이론값8 FLOPS/클럭 × 3.1 GHz × 8코어
제온(Xeon)15 코어2.8 GHz336 GFLOPS이론값8 FLOPS/클럭 × 2.8 GHz × 15코어
제온(Xeon)18 코어2.3 GHz662.4 GFLOPS이론값16 FLOPS/클럭 × 2.3 GHz × 18코어
제온(Xeon)24 코어2.2 GHz(베이스)
3.4 GHz(터보)
0.845 TFLOPS(베이스)
1.306 TFLOPS(터보)
이론값16 FLOPS/클럭 × 3.4 GHz × 24코어
제온 파이(Xeon Phi)61 코어1.238 GHz(베이스)
1.33 GHz(터보)
1.208 TFLOPS(베이스)
1.298 TFLOPS(터보)
이론값16 FLOPS/클럭 × 1.33 GHz × 61코어
제온 파이(Xeon Phi)72 코어1.5 GHz(베이스)
1.7 GHz(터보)
3.456 TFLOPS(베이스)
3.917 TFLOPS(터보)
이론값32 FLOPS/클럭 × 1.7 GHz × 72코어


3. 3. PC/Server (AMD)

AMD는 Phenom II (X4 980 Black Edition, X6 1100T Black Edition), Bobcat 마이크로아키텍처 기반 Fusion E 시리즈, Magny-Cours 및 Interlagos , Bulldozer 마이크로아키텍처 기반 FX, Vermeer 아키텍처 기반 Ryzen 9, 그리고 Milan 아키텍처 기반 EPYC 프로세서 등을 출시했다.[6]

이름코어 수클럭FLOPS(배정밀도)이론치/실측치이론치의 계산식참조
Phenom II
(X4 980 Black Edition)
4코어3.7GHz59.2 GFLOPS이론치4 FLOPS/클럭 × 3.7GHz × 4코어
Phenom II
(X6 1100T Black Edition)
6코어3.3GHz79.2 GFLOPS이론치4 FLOPS/클럭 × 3.3GHz × 6코어
AMD Fusion E Series
(Bobcat)
2코어1.65GHz6.6 GFLOPS이론치2 FLOPS/클럭 × 1.65GHz × 2코어
AMD Opteron
(Magny-Cours)
12코어2.5GHz120 GFLOPS이론치4 FLOPS/클럭 × 2.5GHz × 12코어[6]
AMD FX
(Bulldozer)
8코어/4모듈3.9GHz124.8 GFLOPS이론치8 FLOPS/클럭 × 3.9GHz × 4모듈
AMD Opteron
(Interlagos)
16코어/8모듈3.1GHz198.4 GFLOPS이론치8 FLOPS/클럭 × 3.1GHz × 8모듈
Ryzen 9
(Vermeer)
16코어4.9GHz(부스트)1.254 TFLOPS이론치16 FLOPS/클럭 × 4.9GHz × 16코어
EPYC
(Milan)
64코어3.5GHz(부스트)2.509 TFLOPS(베이스)
3.584 TFLOPS(부스트)
이론치16 FLOPS/클럭 × 3.5GHz × 64코어



Bulldozer는 1 모듈당 2개의 128비트 FMA(곱셈-누산) 연산기를 가지고 있으며, 배정밀도는 2개의 FMA 명령을 동시에 실행하여 8 FLOPS/Cycle을 달성한다.

3. 4. ARM

ARM 프로세서의 FLOPS 성능은 다음과 같다.[13]

이름코어 수클럭FLOPS이론치/실측치이론치 계산식참조
ARM111 코어700MHz단정밀도: 700 MFLOPS이론치단정밀도: 1 FLOPS/Clock × 700MHz
ARM Cortex-A81 코어1GHz단정밀도: 4 GFLOPS이론치단정밀도: 4 FLOPS/Clock × 1GHz
ARM Cortex-A94 코어1.5GHz단정밀도: 24 GFLOPS
배정밀도: 9 GFLOPS
이론치단정밀도: 4 FLOPS/Clock × 1.5GHz × 4 코어
배정밀도: 1.5 FLOPS/Clock × 1.5GHz × 4 코어
ARM Cortex-A154 코어2.0GHz단정밀도: 64 GFLOPS
배정밀도: 16 GFLOPS
이론치단정밀도: 8 FLOPS/Clock × 2.0GHz × 4 코어
배정밀도: 2 FLOPS/Clock × 2.0GHz × 4 코어
ARM Cortex-A574 코어2.8GHz단정밀도: 89.6 GFLOPS
배정밀도: 44.8 GFLOPS
이론치단정밀도: 8 FLOPS/Clock × 2.8GHz × 4 코어
배정밀도: 4 FLOPS/Clock × 2.8GHz × 4 코어



NetWalker PC-Z1의 CPU는 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(동일 VFP)의 성능을 갖는다.

ARM NEON은 ARM Cortex-A15까지는 배정밀도를 처리할 수 없고, 단정밀도만 가능하다.[13] ARM NEON은 128비트 폭으로 단정밀도일 경우 4 FLOPS/Cycle 이지만, ARM Cortex-A15에는 FMA가 있으므로 8 FLOPS/Cycle이다.

배정밀도는, ARM Cortex-A9는 VFPv3에 의해 2 cycle로 덧셈 2회, 곱셈 1회, 총 3연산을 할 수 있으므로, 1.5 FLOPS/Cycle이다. ARM Cortex-A15는 VFPv4에 의해, 1 cycle에 1회 FMA를 계산할 수 있으므로, 2 FLOPS/Cycle이다. ARM Cortex-A57부터는 NEON에서도 배정밀도를 처리할 수 있게 된다.

3. 5. 게임 콘솔

드림캐스트는 1.4GFLOPS(SH-4 단독)[14], Xbox는 1.5GFLOPS의 성능을 가진다. Xbox 360은 115.2GFLOPS(Xenon 단독)[15], 240GFLOPS(Xenos GPU 단독)[15], 1TFLOPS (시스템 전체, 자세한 내역은 불명)[16]의 성능을 나타낸다. Xbox One은 1.3TFLOPS(GPU 단독)[17], Xbox One S는 1.4TFLOPS(GPU 단독)[17], Xbox One X는 6TFLOPS(GPU 단독)[17]이다. Xbox Series X는 12.15TFLOPS(GPU 단독)[18], Xbox Series S는 4TFLOPS(GPU 단독)[18]의 성능을 보인다.

PlayStation Portable은 CPU 2.6GFLOPS / 9.6GFLOPS (피크 시/시스템 전체)의 성능을 가지며, PlayStation 2는 6.2GFLOPS(Emotion Engine 단독)[19]이다. PlayStation 3는 218GFLOPS(Cell Broadband Engine 단독)[20], 224GFLOPS(RSX 단독)[21], 2TFLOPS (시스템 전체, 자세한 내역은 불명)[22]의 성능을 갖는다. PlayStation 4는 1.84TFLOPS(GPU 단독)[21], PlayStation 4 Pro는 4.2TFLOPS(GPU 단독)[23]이다. PlayStation 5는 10.3TFLOPS(GPU 단독)[24]의 성능을 가진다.

3. 6. 슈퍼컴퓨터

페타플롭스(PetaFlops)는 1초당 1,000조 번의 수학 연산처리를 뜻하는 말로, 슈퍼컴퓨터의 성능을 나타내는 주요 지표로 사용된다. 미국은 1991년부터 페타플롭스 컴퓨터 연구 개발을 검토해왔으며, 일본도 2010년까지 페타플롭스 성능을 가진 슈퍼컴퓨터를 개발할 계획을 발표한 바 있다. IBM, 휴렛패커드, 선마이크로시스템스, 실리콘그래픽스(SGI) 등 여러 기업들이 페타플롭스 슈퍼컴퓨터 개발에 참여하고 있다.

역대 슈퍼컴퓨터들의 FLOPS 성능은 다음과 같다:

이름FLOPS이론값/실측값시스템 개요참고
ENIAC300FLOPS1946년 완성
CRAY-1160MFLOPS배정밀도, 이론 피크 성능 값1976년 초호기 납품
딥 블루11.38GFLOPS1989년 개발 시작, 1997년 체스 세계 챔피언과 대결하여 승리
지구 시뮬레이터
(제1세대)
35.86TFLOPS배정밀도, LINPACK 실측값TOP500 Jun 2002 1위
TSUBAME 1.287.01TFLOPS배정밀도, LINPACK 실측값TOP500 Jun 2009 41위
T2K 오픈 슈퍼컴퓨터101.74TFLOPS배정밀도, LINPACK 실측값
지구 시뮬레이터
(제2세대)
122.4TFLOPSTOP500 Jun 2009 16위
GPU 클러스터
(나가사키 대학, 하마다 고)
158TFLOPS[25]
Blue Gene/L478.2TFLOPSTOP500 Nov 2007 1위
IBM Roadrunner1.105PFLOPS배정밀도, LINPACK 실측값TOP500 Jun 2008 1위
TSUBAME 2.01.192PFLOPS배정밀도, LINPACK 실측값TOP500 Nov 2011 4위
톈허 1호 A2.566PFLOPS배정밀도, LINPACK 실측값TOP500 Nov 2010 1위
TSUBAME 2.52.843PFLOPS배정밀도, LINPACK 실측값TOP500 Nov 2013 11위 , Green500 6위
게이10.510PFLOPS배정밀도, LINPACK 실측값TOP500 Jun 2011 1위[27][28]
IBM Sequoia17.172PFLOPS배정밀도, LINPACK 실측값TOP500 Nov 2012 1위
톈허 2호61.445PFLOPS배정밀도, LINPACK 실측값TOP500 Jun 2013 1위
선웨이 타이후 광93.01PFLOPSTOP500 Jun 2016 1위
서밋143.5PFLOPSTOP500 Jun 2018 1위
후가쿠442.01PFLOPS배정밀도, LINPACK 실측값TOP500 Jun 2020 1위
프론티어1102.00PFLOPS
(1.102EFLOPS)
배정밀도, LINPACK 실측값TOP500 Jun 2022 1위


3. 7. 분산 컴퓨팅

분산 컴퓨팅은 슈퍼컴퓨터와 비슷한 성능 구조를 가지며, 성능을 나타낼 때 플롭스 단위를 사용한다.[79]

명칭FLOPS날짜참여 대수Active율참조
BOINC (Berkeley Open Infrastructure for Network Computing)2.958PFLOPS2009년 12월 6일[29]
8.563PFLOPS2013년 12월 26일986,613대8.51%
161.081PFLOPS2015년 2월 3일376,688대3.54%
160.76PFLOPS2017년 3월 14일739,507대4.79%
SETI@home
(BOINC에 포함)
658.210TFLOPS2013년 12월 26일
731.599TFLOPS2009년 12월 6일
UD Agent65TFLOPS2001년 10월 01일약 96만 대
Folding@home4.273PFLOPS2008년 11월 22일Active 353,966 CPU
(참가 약 355만 대)
5.427PFLOPS2012년 3월 23일
2.4EFLOPS2020년 4월 14일


3. 8. GPU

NVIDIA의 GeForce 시리즈는 8600 GTS(92.8 GFLOPS)부터 RTX 4090(82.58 TFLOPS)까지 다양한 성능을 제공한다.[38] 단정밀도 연산 성능은 모델에 따라 크게 차이가 나며, 최신 모델일수록 더 높은 FLOPS 값을 가진다. 예를 들어, GTX 480은 1.345 TFLOPS, GTX 1080은 8.872 TFLOPS, RTX 2080은 10.07 TFLOPS, 그리고 RTX 3080은 29.77 TFLOPS의 단정밀도 성능을 제공한다.[37][36][35]

AMD의 Radeon 시리즈는 HD 3650(174 GFLOPS)부터 R9 295X2(11.467 TFLOPS)까지 다양한 성능을 제공한다. NVIDIA와 마찬가지로, 최신 모델일수록 더 높은 FLOPS 값을 가진다. HD 5870은 2.72 TFLOPS, HD 7970 GHz 에디션은 4.301 TFLOPS의 단정밀도 성능을 제공한다.[40][41]

Intel 내장 그래픽은 Intel GMA X4500(32 GFLOPS)부터 Iris Pro Graphics 6200(883 GFLOPS)까지 성능이 향상되었다.[46] HD Graphics의 각 EU는 4-way SIMD 연산기를 갖추고 있으며, Sandy Bridge 이전 세대에서는 4 FLOPS/EU, Sandy Bridge 세대에서는 8 FLOPS/EU, Ivy Bridge 세대 이후에는 16 FLOPS/EU의 성능을 제공한다.

모바일 GPU의 경우, 퀄컴 스냅드래곤 시리즈의 Adreno GPU는 Adreno 200(3.92 GFLOPS)부터 Adreno 430(324 GFLOPS)까지 성능이 향상되었다. 애플 A 시리즈 칩에 탑재된 GPU는 A4(1.6 GFLOPS)부터 A16(2.0 TFLOPS)까지, M 시리즈 칩에 탑재된 GPU는 M1(2.6 TFLOPS)부터 M2 Ultra(27.2 TFLOPS)까지 성능이 크게 향상되었다.[51] 삼성 엑시노스 시리즈의 GPU는 Exynos 3(3.2 GFLOPS)부터 Exynos 5420 Octa(102.4 GFLOPS)까지 성능이 향상되었다.

다음은 다양한 GPU의 FLOPS 성능을 정리한 표이다.

제조사시리즈모델단정밀도 FLOPS비고
NVIDIAGeForce8600 GTS92.8 GFLOPS
8800 GT336 GFLOPS
9600 GT208 GFLOPS
9800 GTX+470 GFLOPS
GTX 280622 GFLOPS[30][31]
GTX 4801.345 TFLOPS
GTX 5801.581 TFLOPS
GTX 6803.090 TFLOPS
GTX 780 Ti Special Black Edition5.76 TFLOPS
GTX TITAN X6.144 TFLOPS[32]
GTX 9804.612 TFLOPS[34]
GTX 10808.872 TFLOPS[35]
RTX 208010.07 TFLOPS[36]
NVIDIAGeForce RTXRTX 308029.77 TFLOPS[37]
RTX 4080 16GB48.74 TFLOPS[38]
RTX 409082.58 TFLOPS[38]
AMDRadeonHD 3650174 GFLOPS
HD 3870496 GFLOPS
HD 4670480 GFLOPS
HD 48701.2 TFLOPS
HD 58702.72 TFLOPS
HD 69702.703 TFLOPS[41]
HD 7970 GHz 에디션4.301 TFLOPS[40][41]
R9 290X5.632 TFLOPS
R9 295X211.467 TFLOPS
인텔내장 그래픽Intel GMA X450032 GFLOPS[43]
Intel HD Graphics (Clarkdale)43.2 GFLOPS[43]
Intel HD Graphics 3000129.6 GFLOPS[43]
Intel HD Graphics 4000345.6 GFLOPS[44]
Intel HD Graphics (Haswell)192 GFLOPS[44]
Intel Iris Pro Graphics 5200832 GFLOPS[45]
Iris Pro Graphics 6200883 GFLOPS[46]
AppleApple SiliconA41.6 GFLOPS[51]
A514.4 GFLOPS[52]
A5X36 GFLOPS[54]
A627 GFLOPS[55]
A6X80 GFLOPS[56]
A7115.2 GFLOPS[57]
A8115.2 GFLOPS[59]
A8X230.4 GFLOPS[60][61]
A9249.6 GFLOPS
A9X499.2 GFLOPS
A10 Fusion364.8 GFLOPS
A10X Fusion768 GFLOPS
A11409.3 GFLOPS
A12 Bionic576 GFLOPS
A12X Bionic1200 GFLOPS
A12Z Bionic1372 GFLOPS
A13 Bionic691 GFLOPS
AppleApple SiliconA14 Bionic998 GFLOPS
A151.5 TFLOPS
A162.0 TFLOPS
M12.6 TFLOPS
M1 Pro5.3 TFLOPS
M1 Max10.6 TFLOPS
M1 Ultra21.2 TFLOPS
M23.6 TFLOPS
M2 Pro6.8 TFLOPS
M2 Ultra27.2 TFLOPS
퀄컴스냅드래곤Adreno 2003.92 GFLOPS
Adreno 203/2057.84 GFLOPS
Adreno 22017.0 GFLOPS
Adreno 22525.6 GFLOPS
Adreno 320 (Snapdragon S4 Pro)57 GFLOPS[48]
Adreno 320 (Snapdragon 600)86.4 GFLOPS[49]
Adreno 330 (Snapdragon 800)129.6 GFLOPS[50]
Adreno 430 (Snapdragon 810)324 GFLOPS
삼성전자엑시노스Exynos 33.2 GFLOPS
Exynos 4 Dual (45nm)9.6 GFLOPS
Exynos 4 Dual (32nm)14.4 GFLOPS
Exynos 4 Quad15.84 GFLOPS
Exynos 5 Dual72.5 GFLOPS[66]
Exynos 5420 Octa102.4 GFLOPS[67]


3. 9. GPU 가속기

wikitext

이름코어 수클럭FLOPS이론치/실측치이론치의 계산식참고
NVIDIA Tesla C8701281.35 GHz단정밀도: 345.6 GFLOPS
배정밀도: 불가능
이론치단정밀도: 2 FLOPS/Clock × 1.35 GHz × 128코어
NVIDIA Tesla C10602401.3 GHz단정밀도: 622 GFLOPS
배정밀도: 78 GFLOPS
이론치단정밀도: 2 FLOPS/Clock × 1.3 GHz × 240코어
배정밀도: 1/4 FLOPS/Clock × 1.3 GHz × 240코어
NVIDIA Tesla C20704481.15 GHz단정밀도: 1.03 TFLOPS
배정밀도: 0.515 TFLOPS
이론치단정밀도: 2 FLOPS/Clock × 1.15 GHz × 448코어
배정밀도: 1 FLOPS/Clock × 1.15 GHz × 448코어
NVIDIA Tesla K10
(2GPU 합계)
3072745 MHz단정밀도: 4.58 TFLOPS
배정밀도: 0.19 TFLOPS
이론치단정밀도: 2 FLOPS/Clock × 745 MHz × 3072코어
배정밀도: 1/12 FLOPS/Clock × 745 MHz × 3072코어
[68]
NVIDIA Tesla K202496706 MHz단정밀도: 3.52 TFLOPS
배정밀도: 1.17 TFLOPS
이론치단정밀도: 2 FLOPS/Clock × 706 MHz × 2496코어
배정밀도: 2/3 FLOPS/Clock × 706 MHz × 2496코어
[68]
NVIDIA Tesla K402880745 MHz단정밀도: 4.29 TFLOPS
배정밀도: 1.43 TFLOPS
이론치단정밀도: 2 FLOPS/Clock × 745 MHz × 2880코어
배정밀도: 2/3 FLOPS/Clock × 745 MHz × 2880코어
[68]
NVIDIA Tesla K80
(2GPU 합계)
4992562 MHz단정밀도: 5.61 TFLOPS
배정밀도: 1.87 TFLOPS
이론치단정밀도: 2 FLOPS/Clock × 562 MHz × 4992코어
배정밀도: 2/3 FLOPS/Clock × 562 MHz × 4992코어
NVIDIA Tesla P100 16GB35841329MHz단정밀도: 9.526 TFLOPS
배정밀도: 4.763 TFLOPS
이론치단정밀도: 2 FLOPS/Clock × 1329 MHz × 3584코어
배정밀도: 1 FLOPS/Clock × 1329 MHz × 3584코어
AMD FirePro S91502816단정밀도: 5.07 TFLOPS
배정밀도: 2.53 TFLOPS
이론치[69]
AMD FirePro S91702816단정밀도: 5.24 TFLOPS
배정밀도: 2.62 TFLOPS
이론치[70]


3. 10. FPGA

알테라

명칭클록FLOPS
(단정밀도, 곱셈과 덧셈)
이론값/실측값이론값의 계산식
Stratix IV445 MHz이론값 245 GFLOPS
실측값 171 GFLOPS
이론값64x64 행렬 곱셈 1개당 128개의 DSP를 소비하며 24.45 GFLOPS. DSP는 최대 1288개이므로 244.5 GFLOPS. FPGA에서는 정수 곱셈과 덧셈은 1클록으로 계산할 수 있지만, GPU와 달리 부동 소수점 곱셈은 445MHz 동작에서 11클록이 필요[71][72]。이에 반해 GPU는 1클록으로 처리할 수 있다.
Stratix V388 MHz1.568 TFLOPS이론값2048 multiplier / 64 * 49 GFLOPS (388 MHz) = 1.568 TFLOPS[73]。단정밀도 곱셈에는 27x27의 multiplier가 단정밀도 부동 소수점 수당 64개 필요.
Stratix 101 GHz10 TFLOPS이론값2 FLOPS * 5000 DSP * 1 GHz = 10 TFLOPS[74]



자일링스

명칭클록FLOPS
(단정밀도)
이론값/실측값이론값의 계산식
Virtex-5 SX240T162.52 GFLOPS이론값[76][75]
Virtex-6 SX475T450 GFLOPS이론값[76]
Virtex-7833 GFLOPS이론값[77]
Virtex UltraScale1.739 TFLOPS이론값[77]


4. 단위당 연산 비용

4. 1. 하드웨어 비용

컴퓨터의 연산 능력과 연산 능력당 하드웨어 비용 감소가 비약적으로 증가했다.[81][82][83]

시기GFLOPS당 비용기술비고
1961년1,100,000,000,000 달러IBM 1620개당 64,000 달러인 IBM 1620 유닛이 1,700만개가 있어야 1GFLOPS가 될 수 있다. 곱셈 연산은 17.7 ms가 소요된다.
1984년15,000,000 달러크레이 X-MP
1997년30,000 달러펜티엄 프로 마이크로프로세서 16개로 구성된 베오울프 클러스터 2개
2000년 4월1,000 달러[https://web.archive.org/web/20080722203857/http://tsg.anu.edu.au/Projects/Beowulf/ 버닙 베오울프 클러스터]최초로 1 달러/MFLOPS의 장벽을 깼으며, 2000년에 병렬 계산 기술의 향상을 목적으로 수여되는 상인 고든 벨 상을 받았다.
2000년 5월640 달러[http://aggregate.org/KLAT2/ KLAT2]
2003년 8월82 달러[http://aggregate.org/KASY0/ KASY0]
2007년 8월48 달러[http://www.calvin.edu/~adams/research/microwulf/ Microwulf]
2011년 3월1.80 달러HPU4Science30,000 달러로 12.5에서 20 테라플롭스에 해당하는 연산능력의 컴퓨터를 게이머용 그래픽 프로세서로 만들었다.


4. 2. 연산 비용

Green500 목록에 따르면, 2010년 6월 현재 가장 효율적인 TOP500 슈퍼컴퓨터는 와트당 773.38 메가플롭스를 연산한다. 이를 다시 환산하면, 기가플롭스를 연산하는데 최소한 1.29 와트가 필요하다는 것을 알 수 있다.

5. 페타플롭스

페타플롭스(PetaFlops)는 1초당 1,000조 번의 수학 연산처리를 뜻하는 말로, 페타플롭(PetaFlop) 또는 피플롭(PFLOP)이라고도 한다. 이는 국제단위계(SI)에서 1015을 나타내는 접두어 페타(Peta)와 초당 수행 가능한 부동소수점 연산 횟수를 나타내는 컴퓨터 성능 단위 플롭스(Flops)를 합쳐 만든 신조어이다. 1페타플롭스 프로세서를 장착한 컴퓨터는 펜티엄 133Mz 프로세서보다 1억 배 빠른 연산처리 속도를 갖는다.

미국은 1991년 퍼듀 대학교에서 열린 고성능 컴퓨팅과 통신(HPCC) 워크숍에서 페타플롭스 컴퓨터 연구 개발을 검토한 뒤 매년 관련 워크숍과 심포지엄을 개최하며 이 분야 연구를 주도하고 있다. 일본 문부과학성 자문기구인 과학기술·학술심의회도 2005년 1월 발표한 '제3기(2006~10) 과학기술 기본계획'에 포함된 '10대기간기술개발안'에서 2010년까지 페타플롭스 성능을 가진 슈퍼컴퓨터를 개발할 계획이라고 밝혔다. IBM, 휴렛 팩커드, 선 마이크로시스템즈, 실리콘 그래픽스 등 미국의 주요 컴퓨터 업체들도 페타플롭스급 슈퍼컴퓨터 개발에 참여하고 있다. 특히 IBM은 2010년까지 페타플롭스 슈퍼컴퓨터 X1을 상용화할 계획이라고 발표했다.

참조

[1] 뉴스 【レポート】ポスト「京」コンピュータはどうなるのか (1) 次世代スパコンの開発開始で米国に遅れをとっている日本 | エンタープライズ | マイコミジャーナル https://news.mynavi.[...]
[2] 웹사이트 Frontier https://www.olcf.orn[...] 2024-03-05
[3] 웹사이트 Folding@homeがTOP 500の全スパコンを超える2.4EFLOPSに到達 https://pc.watch.imp[...] PC Watch 2020-04-14
[4] 웹사이트 Intel® microprocessor export compliance metrics http://www.intel.com[...]
[5] 웹사이트 インテル® プロセッサー — インテル® マイクロプロセッサー製品の輸出規制基準 http://www.intel.com[...] 2015-01-12
[6] 웹사이트 PetaFLOPS for the Common Man- Pt 3 In the next few yrs what could PetaFLOPS Systems Look Like - The Dell TechCenter http://www.delltechc[...]
[7] 웹사이트 インテル® Core™ i9-11900K プロセッサー https://ark.intel.co[...] Intel 2022-04-04
[8] 웹사이트 インテル® Core™ i9-12900KS プロセッサー https://ark.intel.co[...] Intel 2022-04-04
[9] 웹사이트 Intel's Haswell Architecture Analyzed: Building a New PC and a New Intel http://www.anandtech[...]
[10] 웹사이트 Intel® Advanced Vector Extensions 512 https://www.intel.sg[...] Intel 2022-04-04
[11] 웹사이트 IDF Beijingで公開されたHaswellの省電力&オーバークロック機能 - PC Watch https://pc.watch.imp[...]
[12] 웹사이트 The microarchitecture of Intel, AMD and VIA CPUs http://www.agner.org[...]
[13] 웹사이트 5.5.2. NEON データ型および VFP データ型 - ARM http://infocenter.ar[...]
[14] 웹사이트 組込み型マイコンとして業界最高性能の360MIPSを実現した SH-4「SH7750シリーズ」を製品化 https://www.hitachi.[...]
[15] 웹사이트 PLAYSTATION 3のグラフィックスエンジンRSX https://pc.watch.imp[...] 2021-11-12
[16] 뉴스 マイクロソフト、「Xbox 360」ハードウェア編 丸山嘉浩氏「日本で成功しなければ成功したと言えない」 GAME watch 2005/05/13 https://game.watch.i[...]
[17] 웹사이트 【後藤弘茂のWeekly海外ニュース】 Xbox One X搭載チップ「Scorpio Engine」の詳細が明らかに https://pc.watch.imp[...] 2023-01-11
[18] 웹사이트 Xbox One Xを圧倒する高性能! Xbox Series S、詳細スペックが公開 https://game.watch.i[...] 2021-06-05
[19] 웹사이트 次世代プレイステーション向け世界最高速の128ビットCPU Emotion Engine を開発 http://www.scei.co.j[...] ソニー・コンピュータエンタテインメント 2013-07-11
[20] 웹사이트 ベールを脱いだPlayStation 3の姿 https://pc.watch.imp[...] 2021-11-12
[21] 웹사이트 西川善司,PS4にまつわる6つの疑問に答えるそぶりをしてみる~PS4はPS4.1,PS4.2と進化する!? https://www.4gamer.n[...] 2021-11-12
[22] 웹사이트 PlayStation.com(Japan) http://www.jp.playst[...]
[23] 웹사이트 西川善司の3DGE:知られざるPS4 Proの秘密(1)メモリ増量に,Polarisと次世代GPUの機能取り込み!? https://www.4gamer.n[...] 2021-11-12
[24] 웹사이트 「PS5」の詳細スペックやシステム設計情報が解禁。ロード時間は2GBをわずか0.27秒、PS4互換はすでに100作を確認、新オーディオエンジンで雨粒から音を再現 https://news.denfami[...] 2020-03-18
[25] 웹사이트 GPU クラスタによる高性能計算技術の実証:長崎大学濱田剛テニュアトラック助教らのGPU クラスタによる計算がゴードン・ベル賞を受賞 http://www.nagasaki-[...] 2010-06-02
[26] 웹사이트 【森山和道の「ヒトと機械の境界面」】 スパコン「京」を使う「次世代生命体統合シミュレーション」とは https://pc.watch.imp[...]
[27] 뉴스 【レポート】「京」コンピュータが京速を達成 - Top500の首位堅持に期待 - エンタープライズ - マイコミジャーナル https://news.mynavi.[...]
[28] 웹사이트 「京」が第37回TOP500ランキングにおいて世界第一位を獲得! http://www.nsc.riken[...]
[29] 웹사이트 BOINC STATS - BOINC combined http://boincstats.co[...]
[30] 웹사이트 ゲームを超えるミッションとは──NVIDIAが「GT200」にこめたGPUの可能性 (2/3) - ITmedia +D PC USER https://www.itmedia.[...]
[31] 웹사이트 GeForce GTX 200 GPU Technical Brief http://www.nvidia.co[...]
[32] 웹사이트 【レビュー】Maxwellのモンスター、「GeForce GTX TITAN X」をベンチマーク - PC Watch https://pc.watch.imp[...]
[33] 웹사이트 2999ドルの超弩級グラフィックボード『GeForce GTX TITAN Z』登場 - 週アスPLUS https://weekly.ascii[...]
[34] 웹사이트 【後藤弘茂のWeekly海外ニュース】高い電力性能比を実現した「Geforce GTX 980」の秘密 - PC Watch https://pc.watch.imp[...]
[35] 웹사이트 https://www.4gamer.n[...]
[36] 웹사이트 西川善司の3DGE:GeForce RTX 20完全理解。レイトレ以外の部分も強化が入ったTuringアーキテクチャにとことん迫る https://www.4gamer.n[...] 2020-09-05
[37] 웹사이트 西川善司の3DGE:GeForce RTX 30シリーズのアーキテクチャを探る。CUDA Coreの増量とRT Coreの高性能化に注目だ https://www.4gamer.n[...] 2023-05-28
[38] 웹사이트 西川善司の3DGE:GeForce RTX 40完全解説。シェーダの大増量にレイトレーシングの大幅機能強化など見どころのすべてを明らかに https://www.4gamer.n[...] 2023-05-28
[39] 웹사이트 米AMD、2基のGPUを搭載する「ATI Radeon HD 5970」 - 演算性能は4.64TFLOPS - マイコミジャーナル https://news.mynavi.[...] 2009-12-07
[40] 뉴스 GPUアーキテクチャ刷新のサイクル変化が産んだ「Radeon HD 7990」 https://pc.watch.imp[...]
[41] 웹사이트 AMD Radeon HD 7970 GHz Edition Review: Battling For The Performance Crown http://www.anandtech[...]
[42] 웹사이트 AMD’s Annual GPU Rebadge: Radeon HD 8000 Series for OEMs http://www.anandtech[...]
[43] PDF Intel HD Graphics DirectX Developer's Guide (Sandy Bridge) https://software.int[...]
[44] PDF DirectX Developer’s Guide for Intel® Processor Graphics Maximizing Graphics Performance on 4th Generation Intel® Core™ Processors https://software.int[...]
[45] PDF The Compute Architecture of Intel® Processor Graphics Gen7.5 https://software.int[...]
[46] PDF The Compute Architecture of Intel® Processor Graphics Gen8 https://software.int[...]
[47] PDF The Compute Architecture of Intel® Processor Graphics Gen9 https://software.int[...]
[48] 웹사이트 359gsm.com - Qualcomm Snapdragon 800 & Adreno 330 http://www.359gsm.co[...]
[49] 웹사이트 359gsm.com - Qualcomm Snapdragon 800 & Adreno 330 http://www.359gsm.co[...]
[50] 웹사이트 359gsm.com - Qualcomm Snapdragon 800 & Adreno 330 http://www.359gsm.co[...]
[51] 웹사이트 AnandTech - The iPhone 5 Performance Preview http://www.anandtech[...]
[52] 웹사이트 359gsm.com - Apple GPU GFLOPS PowerVR Series5 SGXMP http://www.359gsm.co[...]
[53] 웹사이트 359gsm.com - Apple GPU GFLOPS PowerVR Series5 SGXMP http://www.359gsm.co[...]
[54] 웹사이트 359gsm.com - Apple GPU GFLOPS PowerVR Series5 SGXMP http://www.359gsm.co[...]
[55] 웹사이트 359gsm.com - Apple GPU GFLOPS PowerVR Series5 SGXMP http://www.359gsm.co[...]
[56] 웹사이트 359gsm.com - Apple A6X & PowerVR SGX554 http://www.359gsm.co[...]
[57] 웹사이트 359gsm.com - Apple A7 & PowerVR G6430 http://www.359gsm.co[...]
[58] 웹사이트 359gsm.com - Apple A7 & PowerVR G6430 http://www.359gsm.co[...]
[59] 웹사이트 Apple A8 SoC - NotebookCheck.net Tech http://www.notebookc[...]
[60] 웹사이트 AnandTech | Apple A8X’s GPU - GXA6850, Even Better Than I Thought http://www.anandtech[...]
[61] 웹사이트 Apple A8X iPad SoC - NotebookCheck.net Tech http://www.notebookc[...]
[62] 웹사이트 AnandTech - Analysis of the new Apple iPad http://www.anandtech[...]
[63] 뉴스 【レポート】NVIDIA、Tegra 4の詳細をついに公開 - CPUだけでなくGPUも大規模アーキテクチャ変更と明らかに (3) より高性能な製造プロセスを利用するTegra 4i - パソコン - マイナビニュース https://news.mynavi.[...]
[64] 뉴스 【後藤弘茂のWeekly海外ニュース】NVIDIAがMWCに合わせて「Tegra 4/4i」の詳細を明らかに https://pc.watch.imp[...]
[65] 웹사이트 AnandTech | NVIDIA Tegra X1 Preview & Architecture Analysis http://www.anandtech[...]
[66] 웹사이트 Enjoy the Ultimate WQXGA Solution with Exynos 5 Dual http://www.samsung.c[...]
[67] 웹사이트 359gsm.com - Samsung Exynos 5420 & ARM Mali T628 MP6 http://www.359gsm.co[...]
[68] 웹사이트 Tesla Kepler Family Product Overview - Nvidia http://www.nvidia.co[...]
[69] 웹사이트 AMD claims supercomputing GPU performance crown with FirePro S9150 http://www.pcworld.c[...]
[70] 웹사이트 AMD FirePro S9170 Server GPU http://www.amd.com/e[...]
[71] 웹사이트 アルテラ浮動小数点メガファンクション http://www.altera.co[...]
[72] PDF 浮動小数点メガファンクション ユーザーガイド http://www.altera.co[...]
[73] PDF Achieving One TeraFLOPS with 28nm FPGA https://www.altera.c[...]
[74] PDF ピーク浮動小数点性能の本質 - ALTERA https://www.altera.c[...]
[75] 뉴스 Revaluating FPGAs for 64-bit Floating-Point Calculations http://www.hpcwire.c[...]
[76] PDF FPGAを用いた高性能コンピューティング http://japan.xilinx.[...]
[77] 웹사이트 DSP - Xilinx http://japan.xilinx.[...]
[78] 웹인용 "Nodes, Sockets, Cores and FLOPS, Oh, My" by Dr. Mark R. Fernandez, Ph.D. http://en.community.[...] 2013-10-19
[79] 문서 2009-11-28
[80] 문서 2013-08-21
[81] 웹사이트 IBM 1961 BRL Report http://ed-thelen.org[...]
[82] 웹인용 Loki and Hyglac http://loki-www.lanl[...] 2011-05-29
[83] 뉴스 High-performance computing on gamer PCs http://arstechnica.c[...] Ars Technica 2011-03-31



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com