플롭스

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

플롭스(FLOPS, FLoating-point Operations Per Second)는 컴퓨터의 부동 소수점 연산 속도를 나타내는 단위로, 연산식은 `cores × clock × FLOPs/cycle`로 계산된다. 플롭스는 PC, 서버, ARM, 게임 콘솔, 슈퍼컴퓨터, 분산 컴퓨팅, GPU, GPU 가속기, FPGA 등 다양한 하드웨어에서 측정되며, 하드웨어의 발전과 함께 연산 능력 및 단위당 하드웨어 비용 감소가 이루어졌다. 페타플롭스는 1초당 1,000조 번의 연산 처리를 의미하며, 슈퍼컴퓨터의 성능을 나타내는 지표로 사용된다.

플롭스
기본 정보
유형부동소수점 연산 성능
측정 단위초당 부동소수점 연산 횟수
기원1960년대 후반
설명
설명컴퓨터 성능 측정에 사용되는 지표
관련 용어컴퓨터 성능, 벤치마크
활용
활용 분야과학 연구
인공지능
그래픽 처리
📚 더 읽어볼만한 페이지
  • 부동소수점 - IEEE 754
    IEEE 754는 부동소수점 숫자를 표현하고 처리하기 위한 국제 표준으로, 다양한 형식과 연산, 반올림 규칙, 예외 처리 등을 정의한다.
  • 부동소수점 - IEEE 754-1985
    IEEE 754-1985는 부동소수점 수의 표현, 연산, 반올림 등을 정의하는 기술 표준으로, 부호 비트, 지수, 가수를 사용하여 숫자를 표현하며, 단정밀도, 배정밀도, 확장 정밀도 형식을 제공하고, 0, 무한대, NaN과 같은 특수한 값을 정의하며, 표준 연산과 다양한 함수 및 술어를 제공한다.
  • 컴퓨터 벤치마크 - 벤치마크 (컴퓨팅)
    벤치마크는 컴퓨터 시스템 성능 측정 지표 또는 과정 자체를 의미하며, 시스템 성능 비교를 위해 특정 작업 시뮬레이션을 통해 시스템 또는 구성 요소의 성능을 측정하는 데 사용되지만, 결과가 과장되거나 다른 중요한 요소들을 간과할 수 있다는 문제점도 존재한다.
  • 컴퓨터 벤치마크 - 윈도우 시스템 평가 도구
    윈도우 시스템 평가 도구는 윈도우 비스타부터 도입된 시스템 성능 측정 도구로, CPU, 메모리, 그래픽 등 하드웨어 및 소프트웨어 구성 요소의 성능을 평가하여 윈도우 체험 지수를 제공한다.
  • 진동수의 단위 - 헤르츠
    헤르츠는 1초당 발생하는 주기적 현상의 빈도를 나타내는 SI 단위로, 세슘-133 원자의 초미세 분리 주파수를 기준으로 정의되며, 전자기파, 중력파, 컴퓨터 처리 속도 등 다양한 분야에서 주파수 측정에 활용되고 독일 물리학자 하인리히 루돌프 헤르츠의 이름을 땄다.
  • 진동수의 단위 - 베크렐
    베크렐은 1초당 1개의 원자핵 붕괴를 나타내는 방사능 활동량의 SI 단위로, 방사능 세기를 측정하며 퀴리와 러더퍼드 대신 사용되고, 방사능 농도 표시에 활용되지만, 방사선 위험성 평가는 흡수선량, 유효선량과 함께 고려해야 한다.

2. 연산식

플롭스 연산식은 다음과 같이 계산된다.

:\text{FLOPS} = \text{cores} \times \text{clock} \times \frac{\text{FLOPs}}{\text{cycle}}

3. 대표적인 하드웨어의 부동 소수점 연산 능력

3.1. PC (Intel)

인텔 CPU의 FLOPS 성능은 펜티엄부터 코어 i9까지 꾸준히 발전해왔다. 코어 수, 클럭, 배정밀도 FLOPS, 이론값/실측값, 이론값 계산식은 다음과 같다.

👆
좌우로 밀어서 보기
이름코어 수클럭FLOPS(배정밀도)이론값/실측값이론값 계산식
펜티엄1 코어300MHz300 MFLOPS이론값1 FLOPS/클럭 × 300MHz
펜티엄 II1 코어450MHz450 MFLOPS이론값1 FLOPS/클럭 × 450MHz
펜티엄 III1 코어1.4GHz2.1 GFLOPS이론값1.5 FLOPS/클럭 × 1.4GHz
펜티엄 M1 코어2.26GHz3.39 GFLOPS이론값1.5 FLOPS/클럭 × 2.26GHz
펜티엄 41 코어3.8GHz7.6 GFLOPS이론값2 FLOPS/클럭 × 3.8GHz
펜티엄 D2 코어3.6GHz14.4 GFLOPS이론값2 FLOPS/클럭 × 3.6GHz × 2 코어
인텔 아톰(Bonnell)2 코어1.8GHz5.4 GFLOPS이론값1.5 FLOPS/클럭 × 1.8GHz × 2 코어
코어 솔로1 코어1.83GHz2.75 GFLOPS이론값1.5 FLOPS/클럭 × 1.83GHz
코어 듀오2 코어2.33GHz6.99 GFLOPS이론값1.5 FLOPS/클럭 × 2.33GHz × 2 코어
코어 2 듀오2 코어3.33GHz26.64 GFLOPS이론값4 FLOPS/클럭 × 3.33GHz × 2 코어
코어 2 익스트림4 코어3.2GHz51.2 GFLOPS이론값4 FLOPS/클럭 × 3.2GHz × 4 코어
코어 i7(네할렘)4 코어3.33GHz53.28 GFLOPS이론값4 FLOPS/클럭 × 3.33GHz × 4 코어
코어 i7(웨스트미어)6 코어3.46GHz83.04 GFLOPS이론값4 FLOPS/클럭 × 3.46GHz × 6 코어
코어 i7(샌디 브릿지)6 코어3.3GHz158.4 GFLOPS이론값8 FLOPS/클럭 × 3.3GHz × 6 코어
코어 i7(하스웰)8 코어3.0 GHz (베이스)
3.5 GHz (터보)
384 GFLOPS (베이스)
448 GFLOPS (터보)
이론값16 FLOPS/클럭 × 3.0 GHz × 8 코어
코어 i7(브로드웰)10 코어3.0 GHz (베이스)
3.5 GHz (터보)
480 GFLOPS (베이스)
560 GFLOPS (터보)
이론값16 FLOPS/클럭 × 3.0 GHz × 10 코어
코어 i9(로켓 레이크)8 코어5.2 GHz (터보)665 GFLOPS (터보)이론값16 FLOPS/클럭 × 5.2 GHz × 8 코어
코어 i9(앨더 레이크)P8/E85.2/4.0 GHz (터보)1.18 TFLOPS (터보)이론값16 FLOPS/클럭 × 5.2 GHz × 8 코어


코어 2 듀오는 클럭당 SSE를 통해 덧셈과 곱셈을 계산하여 128비트 폭에서 배정밀도로 4 FLOPS/클럭을 달성했다. 샌디 브릿지에 탑재된 인텔 AVX는 256비트 폭으로 8 FLOPS/클럭을, 인텔 FMA는 융합 곱셈-덧셈 명령으로 1 명령에 곱셈과 덧셈 2 연산을 처리하여 16 FLOPS/클럭을 가능하게 했다. 단정밀도의 경우 연산 횟수는 2배이다. 아톰은 클럭당 1개의 SSE 덧셈 명령과 2 클럭당 1개의 SSE 곱셈 명령을 실행하여 배정밀도로 3 FLOPS/클럭이다.

3.2. 서버 (Intel)

wikitable

👆
좌우로 밀어서 보기
이름코어 수클럭FLOPS(배정밀도)이론값/실측값이론값 계산식참조
제온(Xeon)8 코어2.26 GHz72.32 GFLOPS이론값4 FLOPS/클럭 × 2.26 GHz × 8코어
제온(Xeon)10 코어2.4 GHz96 GFLOPS이론값4 FLOPS/클럭 × 2.4 GHz × 10코어
제온(Xeon)8 코어3.1 GHz198.4 GFLOPS이론값8 FLOPS/클럭 × 3.1 GHz × 8코어
제온(Xeon)15 코어2.8 GHz336 GFLOPS이론값8 FLOPS/클럭 × 2.8 GHz × 15코어
제온(Xeon)18 코어2.3 GHz662.4 GFLOPS이론값16 FLOPS/클럭 × 2.3 GHz × 18코어
제온(Xeon)24 코어2.2 GHz(베이스)
3.4 GHz(터보)
0.845 TFLOPS(베이스)
1.306 TFLOPS(터보)
이론값16 FLOPS/클럭 × 3.4 GHz × 24코어
제온 파이(Xeon Phi)61 코어1.238 GHz(베이스)
1.33 GHz(터보)
1.208 TFLOPS(베이스)
1.298 TFLOPS(터보)
이론값16 FLOPS/클럭 × 1.33 GHz × 61코어
제온 파이(Xeon Phi)72 코어1.5 GHz(베이스)
1.7 GHz(터보)
3.456 TFLOPS(베이스)
3.917 TFLOPS(터보)
이론값32 FLOPS/클럭 × 1.7 GHz × 72코어

3.3. PC/Server (AMD)

AMD는 Phenom II (X4 980 Black Edition, X6 1100T Black Edition), Bobcat 마이크로아키텍처 기반 Fusion E 시리즈, Magny-Cours 및 Interlagos , Bulldozer 마이크로아키텍처 기반 FX, Vermeer 아키텍처 기반 Ryzen 9, 그리고 Milan 아키텍처 기반 EPYC 프로세서 등을 출시했다.

👆
좌우로 밀어서 보기
이름코어 수클럭FLOPS(배정밀도)이론치/실측치이론치의 계산식참조
Phenom II
(X4 980 Black Edition)
4코어3.7GHz59.2 GFLOPS이론치4 FLOPS/클럭 × 3.7GHz × 4코어
Phenom II
(X6 1100T Black Edition)
6코어3.3GHz79.2 GFLOPS이론치4 FLOPS/클럭 × 3.3GHz × 6코어
AMD Fusion E Series
(Bobcat)
2코어1.65GHz6.6 GFLOPS이론치2 FLOPS/클럭 × 1.65GHz × 2코어
AMD Opteron
(Magny-Cours)
12코어2.5GHz120 GFLOPS이론치4 FLOPS/클럭 × 2.5GHz × 12코어
AMD FX
(Bulldozer)
8코어/4모듈3.9GHz124.8 GFLOPS이론치8 FLOPS/클럭 × 3.9GHz × 4모듈
AMD Opteron
(Interlagos)
16코어/8모듈3.1GHz198.4 GFLOPS이론치8 FLOPS/클럭 × 3.1GHz × 8모듈
Ryzen 9
(Vermeer)
16코어4.9GHz(부스트)1.254 TFLOPS이론치16 FLOPS/클럭 × 4.9GHz × 16코어
EPYC
(Milan)
64코어3.5GHz(부스트)2.509 TFLOPS(베이스)
3.584 TFLOPS(부스트)
이론치16 FLOPS/클럭 × 3.5GHz × 64코어


Bulldozer는 1 모듈당 2개의 128비트 FMA(곱셈-누산) 연산기를 가지고 있으며, 배정밀도는 2개의 FMA 명령을 동시에 실행하여 8 FLOPS/Cycle을 달성한다.

3.4. ARM

ARM 프로세서의 FLOPS 성능은 다음과 같다.

👆
좌우로 밀어서 보기
이름코어 수클럭FLOPS이론치/실측치이론치 계산식참조
ARM111 코어700MHz단정밀도: 700 MFLOPS이론치단정밀도: 1 FLOPS/Clock × 700MHz
ARM Cortex-A81 코어1GHz단정밀도: 4 GFLOPS이론치단정밀도: 4 FLOPS/Clock × 1GHz
ARM Cortex-A94 코어1.5GHz단정밀도: 24 GFLOPS
배정밀도: 9 GFLOPS
이론치단정밀도: 4 FLOPS/Clock × 1.5GHz × 4 코어
배정밀도: 1.5 FLOPS/Clock × 1.5GHz × 4 코어
ARM Cortex-A154 코어2.0GHz단정밀도: 64 GFLOPS
배정밀도: 16 GFLOPS
이론치단정밀도: 8 FLOPS/Clock × 2.0GHz × 4 코어
배정밀도: 2 FLOPS/Clock × 2.0GHz × 4 코어
ARM Cortex-A574 코어2.8GHz단정밀도: 89.6 GFLOPS
배정밀도: 44.8 GFLOPS
이론치단정밀도: 8 FLOPS/Clock × 2.8GHz × 4 코어
배정밀도: 4 FLOPS/Clock × 2.8GHz × 4 코어


NetWalker PC-Z1의 CPU는 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(동일 VFP)의 성능을 갖는다.

ARM NEON은 ARM Cortex-A15까지는 배정밀도를 처리할 수 없고, 단정밀도만 가능하다. ARM NEON은 128비트 폭으로 단정밀도일 경우 4 FLOPS/Cycle 이지만, ARM Cortex-A15에는 FMA가 있으므로 8 FLOPS/Cycle이다.

배정밀도는, ARM Cortex-A9는 VFPv3에 의해 2 cycle로 덧셈 2회, 곱셈 1회, 총 3연산을 할 수 있으므로, 1.5 FLOPS/Cycle이다. ARM Cortex-A15는 VFPv4에 의해, 1 cycle에 1회 FMA를 계산할 수 있으므로, 2 FLOPS/Cycle이다. ARM Cortex-A57부터는 NEON에서도 배정밀도를 처리할 수 있게 된다.

3.5. 게임 콘솔

드림캐스트는 1.4GFLOPS(SH-4 단독), Xbox는 1.5GFLOPS의 성능을 가진다. Xbox 360은 115.2GFLOPS(Xenon 단독), 240GFLOPS(Xenos GPU 단독), 1TFLOPS (시스템 전체, 자세한 내역은 불명)의 성능을 나타낸다. Xbox One은 1.3TFLOPS(GPU 단독), Xbox One S는 1.4TFLOPS(GPU 단독), Xbox One X는 6TFLOPS(GPU 단독)이다. Xbox Series X는 12.15TFLOPS(GPU 단독), Xbox Series S는 4TFLOPS(GPU 단독)의 성능을 보인다.

PlayStation Portable은 CPU 2.6GFLOPS / 9.6GFLOPS (피크 시/시스템 전체)의 성능을 가지며, PlayStation 2는 6.2GFLOPS(Emotion Engine 단독)이다. PlayStation 3는 218GFLOPS(Cell Broadband Engine 단독), 224GFLOPS(RSX 단독), 2TFLOPS (시스템 전체, 자세한 내역은 불명)의 성능을 갖는다. PlayStation 4는 1.84TFLOPS(GPU 단독), PlayStation 4 Pro는 4.2TFLOPS(GPU 단독)이다. PlayStation 5는 10.3TFLOPS(GPU 단독)의 성능을 가진다.

3.6. 슈퍼컴퓨터

페타플롭스(PetaFlops)는 1초당 1,000조 번의 수학 연산처리를 뜻하는 말로, 슈퍼컴퓨터의 성능을 나타내는 주요 지표로 사용된다. 미국은 1991년부터 페타플롭스 컴퓨터 연구 개발을 검토해왔으며, 일본도 2010년까지 페타플롭스 성능을 가진 슈퍼컴퓨터를 개발할 계획을 발표한 바 있다. IBM, 휴렛패커드, 선마이크로시스템스, 실리콘그래픽스(SGI) 등 여러 기업들이 페타플롭스 슈퍼컴퓨터 개발에 참여하고 있다.

역대 슈퍼컴퓨터들의 FLOPS 성능은 다음과 같다:

👆
좌우로 밀어서 보기
이름FLOPS이론값/실측값시스템 개요참고
ENIAC300FLOPS1946년 완성
CRAY-1160MFLOPS배정밀도, 이론 피크 성능 값1976년 초호기 납품
딥 블루11.38GFLOPS1989년 개발 시작, 1997년 체스 세계 챔피언과 대결하여 승리
지구 시뮬레이터
(제1세대)
35.86TFLOPS배정밀도, LINPACK 실측값TOP500 Jun 2002 1위
TSUBAME 1.287.01TFLOPS배정밀도, LINPACK 실측값TOP500 Jun 2009 41위
T2K 오픈 슈퍼컴퓨터101.74TFLOPS배정밀도, LINPACK 실측값
지구 시뮬레이터
(제2세대)
122.4TFLOPSTOP500 Jun 2009 16위
GPU 클러스터
(나가사키 대학, 하마다 고)
158TFLOPS
Blue Gene/L478.2TFLOPSTOP500 Nov 2007 1위
IBM Roadrunner1.105PFLOPS배정밀도, LINPACK 실측값TOP500 Jun 2008 1위
TSUBAME 2.01.192PFLOPS배정밀도, LINPACK 실측값TOP500 Nov 2011 4위
톈허 1호 A2.566PFLOPS배정밀도, LINPACK 실측값TOP500 Nov 2010 1위
TSUBAME 2.52.843PFLOPS배정밀도, LINPACK 실측값TOP500 Nov 2013 11위 , Green500 6위
게이10.510PFLOPS배정밀도, LINPACK 실측값TOP500 Jun 2011 1위
IBM Sequoia17.172PFLOPS배정밀도, LINPACK 실측값TOP500 Nov 2012 1위
톈허 2호61.445PFLOPS배정밀도, LINPACK 실측값TOP500 Jun 2013 1위
선웨이 타이후 광93.01PFLOPSTOP500 Jun 2016 1위
서밋143.5PFLOPSTOP500 Jun 2018 1위
후가쿠442.01PFLOPS배정밀도, LINPACK 실측값TOP500 Jun 2020 1위
프론티어1102.00PFLOPS
(1.102EFLOPS)
배정밀도, LINPACK 실측값TOP500 Jun 2022 1위

3.7. 분산 컴퓨팅

분산 컴퓨팅은 슈퍼컴퓨터와 비슷한 성능 구조를 가지며, 성능을 나타낼 때 플롭스 단위를 사용한다.

* 코리아앳홈은 325GFLOPS 정도를 기록한다.
* 세티앳홈은 평균적으로 610TFLOPS 이상을 기록한다.
* BOINC는 7041TFLOPS(7.04PFLOPS) 정도를 기록한다.

👆
좌우로 밀어서 보기
명칭FLOPS날짜참여 대수Active율참조
BOINC (Berkeley Open Infrastructure for Network Computing)2.958PFLOPS2009년 12월 6일
8.563PFLOPS2013년 12월 26일986,613대8.51%
161.081PFLOPS2015년 2월 3일376,688대3.54%
160.76PFLOPS2017년 3월 14일739,507대4.79%
SETI@home
(BOINC에 포함)
658.210TFLOPS2013년 12월 26일
731.599TFLOPS2009년 12월 6일
UD Agent65TFLOPS2001년 10월 01일약 96만 대
Folding@home4.273PFLOPS2008년 11월 22일Active 353,966 CPU
(참가 약 355만 대)
5.427PFLOPS2012년 3월 23일
2.4EFLOPS2020년 4월 14일

3.8. GPU

NVIDIA의 GeForce 시리즈는 8600 GTS(92.8 GFLOPS)부터 RTX 4090(82.58 TFLOPS)까지 다양한 성능을 제공한다. 단정밀도 연산 성능은 모델에 따라 크게 차이가 나며, 최신 모델일수록 더 높은 FLOPS 값을 가진다. 예를 들어, GTX 480은 1.345 TFLOPS, GTX 1080은 8.872 TFLOPS, RTX 2080은 10.07 TFLOPS, 그리고 RTX 3080은 29.77 TFLOPS의 단정밀도 성능을 제공한다.

AMD의 Radeon 시리즈는 HD 3650(174 GFLOPS)부터 R9 295X2(11.467 TFLOPS)까지 다양한 성능을 제공한다. NVIDIA와 마찬가지로, 최신 모델일수록 더 높은 FLOPS 값을 가진다. HD 5870은 2.72 TFLOPS, HD 7970 GHz 에디션은 4.301 TFLOPS의 단정밀도 성능을 제공한다.

Intel 내장 그래픽은 Intel GMA X4500(32 GFLOPS)부터 Iris Pro Graphics 6200(883 GFLOPS)까지 성능이 향상되었다. HD Graphics의 각 EU는 4-way SIMD 연산기를 갖추고 있으며, Sandy Bridge 이전 세대에서는 4 FLOPS/EU, Sandy Bridge 세대에서는 8 FLOPS/EU, Ivy Bridge 세대 이후에는 16 FLOPS/EU의 성능을 제공한다.

모바일 GPU의 경우, 퀄컴 스냅드래곤 시리즈의 Adreno GPU는 Adreno 200(3.92 GFLOPS)부터 Adreno 430(324 GFLOPS)까지 성능이 향상되었다. 애플 A 시리즈 칩에 탑재된 GPU는 A4(1.6 GFLOPS)부터 A16(2.0 TFLOPS)까지, M 시리즈 칩에 탑재된 GPU는 M1(2.6 TFLOPS)부터 M2 Ultra(27.2 TFLOPS)까지 성능이 크게 향상되었다. 삼성 엑시노스 시리즈의 GPU는 Exynos 3(3.2 GFLOPS)부터 Exynos 5420 Octa(102.4 GFLOPS)까지 성능이 향상되었다.

다음은 다양한 GPU의 FLOPS 성능을 정리한 표이다.

👆
좌우로 밀어서 보기
제조사시리즈모델단정밀도 FLOPS비고
NVIDIAGeForce8600 GTS92.8 GFLOPS
8800 GT336 GFLOPS
9600 GT208 GFLOPS
9800 GTX+470 GFLOPS
GTX 280622 GFLOPS
GTX 4801.345 TFLOPS
GTX 5801.581 TFLOPS
GTX 6803.090 TFLOPS
GTX 780 Ti Special Black Edition5.76 TFLOPS
GTX TITAN X6.144 TFLOPS
GTX 9804.612 TFLOPS
GTX 10808.872 TFLOPS
RTX 208010.07 TFLOPS
NVIDIAGeForce RTXRTX 308029.77 TFLOPS
RTX 4080 16GB48.74 TFLOPS
RTX 409082.58 TFLOPS
AMDRadeonHD 3650174 GFLOPS
HD 3870496 GFLOPS
HD 4670480 GFLOPS
HD 48701.2 TFLOPS
HD 58702.72 TFLOPS
HD 69702.703 TFLOPS
HD 7970 GHz 에디션4.301 TFLOPS
R9 290X5.632 TFLOPS
R9 295X211.467 TFLOPS
인텔내장 그래픽Intel GMA X450032 GFLOPS
Intel HD Graphics (Clarkdale)43.2 GFLOPS
Intel HD Graphics 3000129.6 GFLOPS
Intel HD Graphics 4000345.6 GFLOPS
Intel HD Graphics (Haswell)192 GFLOPS
Intel Iris Pro Graphics 5200832 GFLOPS
Iris Pro Graphics 6200883 GFLOPS
AppleApple SiliconA41.6 GFLOPS
A514.4 GFLOPS
A5X36 GFLOPS
A627 GFLOPS
A6X80 GFLOPS
A7115.2 GFLOPS
A8115.2 GFLOPS
A8X230.4 GFLOPS
A9249.6 GFLOPS
A9X499.2 GFLOPS
A10 Fusion364.8 GFLOPS
A10X Fusion768 GFLOPS
A11409.3 GFLOPS
A12 Bionic576 GFLOPS
A12X Bionic1200 GFLOPS
A12Z Bionic1372 GFLOPS
A13 Bionic691 GFLOPS
AppleApple SiliconA14 Bionic998 GFLOPS
A151.5 TFLOPS
A162.0 TFLOPS
M12.6 TFLOPS
M1 Pro5.3 TFLOPS
M1 Max10.6 TFLOPS
M1 Ultra21.2 TFLOPS
M23.6 TFLOPS
M2 Pro6.8 TFLOPS
M2 Ultra27.2 TFLOPS
퀄컴스냅드래곤Adreno 2003.92 GFLOPS
Adreno 203/2057.84 GFLOPS
Adreno 22017.0 GFLOPS
Adreno 22525.6 GFLOPS
Adreno 320 (Snapdragon S4 Pro)57 GFLOPS
Adreno 320 (Snapdragon 600)86.4 GFLOPS
Adreno 330 (Snapdragon 800)129.6 GFLOPS
Adreno 430 (Snapdragon 810)324 GFLOPS
삼성전자엑시노스Exynos 33.2 GFLOPS
Exynos 4 Dual (45nm)9.6 GFLOPS
Exynos 4 Dual (32nm)14.4 GFLOPS
Exynos 4 Quad15.84 GFLOPS
Exynos 5 Dual72.5 GFLOPS
Exynos 5420 Octa102.4 GFLOPS

3.9. GPU 가속기

wikitext

👆
좌우로 밀어서 보기
이름코어 수클럭FLOPS이론치/실측치이론치의 계산식참고
NVIDIA Tesla C8701281.35 GHz단정밀도: 345.6 GFLOPS
배정밀도: 불가능
이론치단정밀도: 2 FLOPS/Clock × 1.35 GHz × 128코어
NVIDIA Tesla C10602401.3 GHz단정밀도: 622 GFLOPS
배정밀도: 78 GFLOPS
이론치단정밀도: 2 FLOPS/Clock × 1.3 GHz × 240코어
배정밀도: 1/4 FLOPS/Clock × 1.3 GHz × 240코어
NVIDIA Tesla C20704481.15 GHz단정밀도: 1.03 TFLOPS
배정밀도: 0.515 TFLOPS
이론치단정밀도: 2 FLOPS/Clock × 1.15 GHz × 448코어
배정밀도: 1 FLOPS/Clock × 1.15 GHz × 448코어
NVIDIA Tesla K10
(2GPU 합계)
3072745 MHz단정밀도: 4.58 TFLOPS
배정밀도: 0.19 TFLOPS
이론치단정밀도: 2 FLOPS/Clock × 745 MHz × 3072코어
배정밀도: 1/12 FLOPS/Clock × 745 MHz × 3072코어
NVIDIA Tesla K202496706 MHz단정밀도: 3.52 TFLOPS
배정밀도: 1.17 TFLOPS
이론치단정밀도: 2 FLOPS/Clock × 706 MHz × 2496코어
배정밀도: 2/3 FLOPS/Clock × 706 MHz × 2496코어
NVIDIA Tesla K402880745 MHz단정밀도: 4.29 TFLOPS
배정밀도: 1.43 TFLOPS
이론치단정밀도: 2 FLOPS/Clock × 745 MHz × 2880코어
배정밀도: 2/3 FLOPS/Clock × 745 MHz × 2880코어
NVIDIA Tesla K80
(2GPU 합계)
4992562 MHz단정밀도: 5.61 TFLOPS
배정밀도: 1.87 TFLOPS
이론치단정밀도: 2 FLOPS/Clock × 562 MHz × 4992코어
배정밀도: 2/3 FLOPS/Clock × 562 MHz × 4992코어
NVIDIA Tesla P100 16GB35841329MHz단정밀도: 9.526 TFLOPS
배정밀도: 4.763 TFLOPS
이론치단정밀도: 2 FLOPS/Clock × 1329 MHz × 3584코어
배정밀도: 1 FLOPS/Clock × 1329 MHz × 3584코어
AMD FirePro S91502816단정밀도: 5.07 TFLOPS
배정밀도: 2.53 TFLOPS
이론치
AMD FirePro S91702816단정밀도: 5.24 TFLOPS
배정밀도: 2.62 TFLOPS
이론치

3.10. FPGA

알테라

👆
좌우로 밀어서 보기
명칭클록FLOPS
(단정밀도, 곱셈과 덧셈)
이론값/실측값이론값의 계산식
Stratix IV445 MHz이론값 245 GFLOPS
실측값 171 GFLOPS
이론값64x64 행렬 곱셈 1개당 128개의 DSP를 소비하며 24.45 GFLOPS. DSP는 최대 1288개이므로 244.5 GFLOPS. FPGA에서는 정수 곱셈과 덧셈은 1클록으로 계산할 수 있지만, GPU와 달리 부동 소수점 곱셈은 445MHz 동작에서 11클록이 필요。이에 반해 GPU는 1클록으로 처리할 수 있다.
Stratix V388 MHz1.568 TFLOPS이론값2048 multiplier / 64 * 49 GFLOPS (388 MHz) = 1.568 TFLOPS。단정밀도 곱셈에는 27x27의 multiplier가 단정밀도 부동 소수점 수당 64개 필요.
Stratix 101 GHz10 TFLOPS이론값2 FLOPS * 5000 DSP * 1 GHz = 10 TFLOPS


자일링스
👆
좌우로 밀어서 보기
명칭클록FLOPS
(단정밀도)
이론값/실측값이론값의 계산식
Virtex-5 SX240T162.52 GFLOPS이론값
Virtex-6 SX475T450 GFLOPS이론값
Virtex-7833 GFLOPS이론값
Virtex UltraScale1.739 TFLOPS이론값

4. 단위당 연산 비용

4.1. 하드웨어 비용

컴퓨터의 연산 능력과 연산 능력당 하드웨어 비용 감소가 비약적으로 증가했다.

👆
좌우로 밀어서 보기
시기GFLOPS당 비용기술비고
1961년1,100,000,000,000 달러IBM 1620개당 64,000 달러인 IBM 1620 유닛이 1,700만개가 있어야 1GFLOPS가 될 수 있다. 곱셈 연산은 17.7 ms가 소요된다.
1984년15,000,000 달러크레이 X-MP
1997년30,000 달러펜티엄 프로 마이크로프로세서 16개로 구성된 베오울프 클러스터 2개
2000년 4월1,000 달러[https://web.archive.org/web/20080722203857/http://tsg.anu.edu.au/Projects/Beowulf/ 버닙 베오울프 클러스터]최초로 1 달러/MFLOPS의 장벽을 깼으며, 2000년에 병렬 계산 기술의 향상을 목적으로 수여되는 상인 고든 벨 상을 받았다.
2000년 5월640 달러[http://aggregate.org/KLAT2/ KLAT2]
2003년 8월82 달러[http://aggregate.org/KASY0/ KASY0]
2007년 8월48 달러[http://www.calvin.edu/~adams/research/microwulf/ Microwulf]
2011년 3월1.80 달러HPU4Science30,000 달러로 12.5에서 20 테라플롭스에 해당하는 연산능력의 컴퓨터를 게이머용 그래픽 프로세서로 만들었다.

4.2. 연산 비용

Green500 목록에 따르면, 2010년 6월 현재 가장 효율적인 TOP500 슈퍼컴퓨터는 와트당 773.38 메가플롭스를 연산한다. 이를 다시 환산하면, 기가플롭스를 연산하는데 최소한 1.29 와트가 필요하다는 것을 알 수 있다.

5. 페타플롭스

페타플롭스(PetaFlops)는 1초당 1,000조 번의 수학 연산처리를 뜻하는 말로, 페타플롭(PetaFlop) 또는 피플롭(PFLOP)이라고도 한다. 이는 국제단위계(SI)에서 1015을 나타내는 접두어 페타(Peta)와 초당 수행 가능한 부동소수점 연산 횟수를 나타내는 컴퓨터 성능 단위 플롭스(Flops)를 합쳐 만든 신조어이다. 1페타플롭스 프로세서를 장착한 컴퓨터는 펜티엄 133Mz 프로세서보다 1억 배 빠른 연산처리 속도를 갖는다.

미국은 1991년 퍼듀 대학교에서 열린 고성능 컴퓨팅과 통신(HPCC) 워크숍에서 페타플롭스 컴퓨터 연구 개발을 검토한 뒤 매년 관련 워크숍과 심포지엄을 개최하며 이 분야 연구를 주도하고 있다. 일본 문부과학성 자문기구인 과학기술·학술심의회도 2005년 1월 발표한 '제3기(2006~10) 과학기술 기본계획'에 포함된 '10대기간기술개발안'에서 2010년까지 페타플롭스 성능을 가진 슈퍼컴퓨터를 개발할 계획이라고 밝혔다. IBM, 휴렛 팩커드, 선 마이크로시스템즈, 실리콘 그래픽스 등 미국의 주요 컴퓨터 업체들도 페타플롭스급 슈퍼컴퓨터 개발에 참여하고 있다. 특히 IBM은 2010년까지 페타플롭스 슈퍼컴퓨터 X1을 상용화할 계획이라고 발표했다.