플롭스

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

플롭스(FLOPS, FLoating-point Operations Per Second)는 컴퓨터의 부동 소수점 연산 속도를 나타내는 단위로, 연산식은 `cores × clock × FLOPs/cycle`로 계산된다. 플롭스는 PC, 서버, ARM, 게임 콘솔, 슈퍼컴퓨터, 분산 컴퓨팅, GPU, GPU 가속기, FPGA 등 다양한 하드웨어에서 측정되며, 하드웨어의 발전과 함께 연산 능력 및 단위당 하드웨어 비용 감소가 이루어졌다. 페타플롭스는 1초당 1,000조 번의 연산 처리를 의미하며, 슈퍼컴퓨터의 성능을 나타내는 지표로 사용된다.

플롭스

기본 정보

유형	부동소수점 연산 성능
측정 단위	초당 부동소수점 연산 횟수
기원	1960년대 후반

설명

설명	컴퓨터 성능 측정에 사용되는 지표
관련 용어	컴퓨터 성능, 벤치마크

활용

활용 분야	과학 연구 인공지능 그래픽 처리

📚 더 읽어볼만한 페이지

부동소수점 - IEEE 754
IEEE 754는 부동소수점 숫자를 표현하고 처리하기 위한 국제 표준으로, 다양한 형식과 연산, 반올림 규칙, 예외 처리 등을 정의한다.
부동소수점 - IEEE 754-1985
IEEE 754-1985는 부동소수점 수의 표현, 연산, 반올림 등을 정의하는 기술 표준으로, 부호 비트, 지수, 가수를 사용하여 숫자를 표현하며, 단정밀도, 배정밀도, 확장 정밀도 형식을 제공하고, 0, 무한대, NaN과 같은 특수한 값을 정의하며, 표준 연산과 다양한 함수 및 술어를 제공한다.
컴퓨터 벤치마크 - 벤치마크 (컴퓨팅)
벤치마크는 컴퓨터 시스템 성능 측정 지표 또는 과정 자체를 의미하며, 시스템 성능 비교를 위해 특정 작업 시뮬레이션을 통해 시스템 또는 구성 요소의 성능을 측정하는 데 사용되지만, 결과가 과장되거나 다른 중요한 요소들을 간과할 수 있다는 문제점도 존재한다.
컴퓨터 벤치마크 - 윈도우 시스템 평가 도구
윈도우 시스템 평가 도구는 윈도우 비스타부터 도입된 시스템 성능 측정 도구로, CPU, 메모리, 그래픽 등 하드웨어 및 소프트웨어 구성 요소의 성능을 평가하여 윈도우 체험 지수를 제공한다.
진동수의 단위 - 헤르츠
헤르츠는 1초당 발생하는 주기적 현상의 빈도를 나타내는 SI 단위로, 세슘-133 원자의 초미세 분리 주파수를 기준으로 정의되며, 전자기파, 중력파, 컴퓨터 처리 속도 등 다양한 분야에서 주파수 측정에 활용되고 독일 물리학자 하인리히 루돌프 헤르츠의 이름을 땄다.
진동수의 단위 - 베크렐
베크렐은 1초당 1개의 원자핵 붕괴를 나타내는 방사능 활동량의 SI 단위로, 방사능 세기를 측정하며 퀴리와 러더퍼드 대신 사용되고, 방사능 농도 표시에 활용되지만, 방사선 위험성 평가는 흡수선량, 유효선량과 함께 고려해야 한다.

1. 개요
2. 연산식
3. 대표적인 하드웨어의 부동 소수점 연산 능력
4. 단위당 연산 비용
- 4.1. 하드웨어 비용
- 4.2. 연산 비용
5. 페타플롭스

2. 연산식

플롭스 연산식은 다음과 같이 계산된다.

: $\text{FLOPS} = \text{cores} \times \text{clock} \times \frac{\text{FLOPs}}{\text{cycle}}$

3. 대표적인 하드웨어의 부동 소수점 연산 능력

3.1. PC (Intel)

인텔 CPU의 FLOPS 성능은 펜티엄부터 코어 i9까지 꾸준히 발전해왔다. 코어 수, 클럭, 배정밀도 FLOPS, 이론값/실측값, 이론값 계산식은 다음과 같다.

👆

좌우로 밀어서 보기


이름	코어 수	클럭	FLOPS(배정밀도)	이론값/실측값	이론값 계산식
펜티엄	1 코어	300MHz	300 MFLOPS	이론값	1 FLOPS/클럭 × 300MHz
펜티엄 II	1 코어	450MHz	450 MFLOPS	이론값	1 FLOPS/클럭 × 450MHz
펜티엄 III	1 코어	1.4GHz	2.1 GFLOPS	이론값	1.5 FLOPS/클럭 × 1.4GHz
펜티엄 M	1 코어	2.26GHz	3.39 GFLOPS	이론값	1.5 FLOPS/클럭 × 2.26GHz
펜티엄 4	1 코어	3.8GHz	7.6 GFLOPS	이론값	2 FLOPS/클럭 × 3.8GHz
펜티엄 D	2 코어	3.6GHz	14.4 GFLOPS	이론값	2 FLOPS/클럭 × 3.6GHz × 2 코어
인텔 아톰(Bonnell)	2 코어	1.8GHz	5.4 GFLOPS	이론값	1.5 FLOPS/클럭 × 1.8GHz × 2 코어
코어 솔로	1 코어	1.83GHz	2.75 GFLOPS	이론값	1.5 FLOPS/클럭 × 1.83GHz
코어 듀오	2 코어	2.33GHz	6.99 GFLOPS	이론값	1.5 FLOPS/클럭 × 2.33GHz × 2 코어
코어 2 듀오	2 코어	3.33GHz	26.64 GFLOPS	이론값	4 FLOPS/클럭 × 3.33GHz × 2 코어
코어 2 익스트림	4 코어	3.2GHz	51.2 GFLOPS	이론값	4 FLOPS/클럭 × 3.2GHz × 4 코어
코어 i7(네할렘)	4 코어	3.33GHz	53.28 GFLOPS	이론값	4 FLOPS/클럭 × 3.33GHz × 4 코어
코어 i7(웨스트미어)	6 코어	3.46GHz	83.04 GFLOPS	이론값	4 FLOPS/클럭 × 3.46GHz × 6 코어
코어 i7(샌디 브릿지)	6 코어	3.3GHz	158.4 GFLOPS	이론값	8 FLOPS/클럭 × 3.3GHz × 6 코어
코어 i7(하스웰)	8 코어	3.0 GHz (베이스) 3.5 GHz (터보)	384 GFLOPS (베이스) 448 GFLOPS (터보)	이론값	16 FLOPS/클럭 × 3.0 GHz × 8 코어
코어 i7(브로드웰)	10 코어	3.0 GHz (베이스) 3.5 GHz (터보)	480 GFLOPS (베이스) 560 GFLOPS (터보)	이론값	16 FLOPS/클럭 × 3.0 GHz × 10 코어
코어 i9(로켓 레이크)	8 코어	5.2 GHz (터보)	665 GFLOPS (터보)	이론값	16 FLOPS/클럭 × 5.2 GHz × 8 코어
코어 i9(앨더 레이크)	P8/E8	5.2/4.0 GHz (터보)	1.18 TFLOPS (터보)	이론값	16 FLOPS/클럭 × 5.2 GHz × 8 코어

코어 2 듀오는 클럭당 SSE를 통해 덧셈과 곱셈을 계산하여 128비트 폭에서 배정밀도로 4 FLOPS/클럭을 달성했다. 샌디 브릿지에 탑재된 인텔 AVX는 256비트 폭으로 8 FLOPS/클럭을, 인텔 FMA는 융합 곱셈-덧셈 명령으로 1 명령에 곱셈과 덧셈 2 연산을 처리하여 16 FLOPS/클럭을 가능하게 했다. 단정밀도의 경우 연산 횟수는 2배이다. 아톰은 클럭당 1개의 SSE 덧셈 명령과 2 클럭당 1개의 SSE 곱셈 명령을 실행하여 배정밀도로 3 FLOPS/클럭이다.

3.2. 서버 (Intel)

wikitable

👆

좌우로 밀어서 보기


이름	코어 수	클럭	FLOPS(배정밀도)	이론값/실측값	이론값 계산식
제온(Xeon)	8 코어	2.26 GHz	72.32 GFLOPS	이론값	4 FLOPS/클럭 × 2.26 GHz × 8코어
제온(Xeon)	10 코어	2.4 GHz	96 GFLOPS	이론값	4 FLOPS/클럭 × 2.4 GHz × 10코어
제온(Xeon)	8 코어	3.1 GHz	198.4 GFLOPS	이론값	8 FLOPS/클럭 × 3.1 GHz × 8코어
제온(Xeon)	15 코어	2.8 GHz	336 GFLOPS	이론값	8 FLOPS/클럭 × 2.8 GHz × 15코어
제온(Xeon)	18 코어	2.3 GHz	662.4 GFLOPS	이론값	16 FLOPS/클럭 × 2.3 GHz × 18코어
제온(Xeon)	24 코어	2.2 GHz(베이스) 3.4 GHz(터보)	0.845 TFLOPS(베이스) 1.306 TFLOPS(터보)	이론값	16 FLOPS/클럭 × 3.4 GHz × 24코어
제온 파이(Xeon Phi)	61 코어	1.238 GHz(베이스) 1.33 GHz(터보)	1.208 TFLOPS(베이스) 1.298 TFLOPS(터보)	이론값	16 FLOPS/클럭 × 1.33 GHz × 61코어
제온 파이(Xeon Phi)	72 코어	1.5 GHz(베이스) 1.7 GHz(터보)	3.456 TFLOPS(베이스) 3.917 TFLOPS(터보)	이론값	32 FLOPS/클럭 × 1.7 GHz × 72코어

3.3. PC/Server (AMD)

AMD는 Phenom II (X4 980 Black Edition, X6 1100T Black Edition), Bobcat 마이크로아키텍처 기반 Fusion E 시리즈, Magny-Cours 및 Interlagos , Bulldozer 마이크로아키텍처 기반 FX, Vermeer 아키텍처 기반 Ryzen 9, 그리고 Milan 아키텍처 기반 EPYC 프로세서 등을 출시했다.

👆

좌우로 밀어서 보기


이름	코어 수	클럭	FLOPS(배정밀도)	이론치/실측치	이론치의 계산식
Phenom II (X4 980 Black Edition)	4코어	3.7GHz	59.2 GFLOPS	이론치	4 FLOPS/클럭 × 3.7GHz × 4코어
Phenom II (X6 1100T Black Edition)	6코어	3.3GHz	79.2 GFLOPS	이론치	4 FLOPS/클럭 × 3.3GHz × 6코어
AMD Fusion E Series (Bobcat)	2코어	1.65GHz	6.6 GFLOPS	이론치	2 FLOPS/클럭 × 1.65GHz × 2코어
AMD Opteron (Magny-Cours)	12코어	2.5GHz	120 GFLOPS	이론치	4 FLOPS/클럭 × 2.5GHz × 12코어
AMD FX (Bulldozer)	8코어/4모듈	3.9GHz	124.8 GFLOPS	이론치	8 FLOPS/클럭 × 3.9GHz × 4모듈
AMD Opteron (Interlagos)	16코어/8모듈	3.1GHz	198.4 GFLOPS	이론치	8 FLOPS/클럭 × 3.1GHz × 8모듈
Ryzen 9 (Vermeer)	16코어	4.9GHz(부스트)	1.254 TFLOPS	이론치	16 FLOPS/클럭 × 4.9GHz × 16코어
EPYC (Milan)	64코어	3.5GHz(부스트)	2.509 TFLOPS(베이스) 3.584 TFLOPS(부스트)	이론치	16 FLOPS/클럭 × 3.5GHz × 64코어

Bulldozer는 1 모듈당 2개의 128비트 FMA(곱셈-누산) 연산기를 가지고 있으며, 배정밀도는 2개의 FMA 명령을 동시에 실행하여 8 FLOPS/Cycle을 달성한다.

3.4. ARM

ARM 프로세서의 FLOPS 성능은 다음과 같다.

👆

좌우로 밀어서 보기


이름	코어 수	클럭	FLOPS	이론치/실측치	이론치 계산식
ARM11	1 코어	700MHz	단정밀도: 700 MFLOPS	이론치	단정밀도: 1 FLOPS/Clock × 700MHz
ARM Cortex-A8	1 코어	1GHz	단정밀도: 4 GFLOPS	이론치	단정밀도: 4 FLOPS/Clock × 1GHz
ARM Cortex-A9	4 코어	1.5GHz	단정밀도: 24 GFLOPS 배정밀도: 9 GFLOPS	이론치	단정밀도: 4 FLOPS/Clock × 1.5GHz × 4 코어 배정밀도: 1.5 FLOPS/Clock × 1.5GHz × 4 코어
ARM Cortex-A15	4 코어	2.0GHz	단정밀도: 64 GFLOPS 배정밀도: 16 GFLOPS	이론치	단정밀도: 8 FLOPS/Clock × 2.0GHz × 4 코어 배정밀도: 2 FLOPS/Clock × 2.0GHz × 4 코어
ARM Cortex-A57	4 코어	2.8GHz	단정밀도: 89.6 GFLOPS 배정밀도: 44.8 GFLOPS	이론치	단정밀도: 8 FLOPS/Clock × 2.8GHz × 4 코어 배정밀도: 4 FLOPS/Clock × 2.8GHz × 4 코어

NetWalker PC-Z1의 CPU는 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(동일 VFP)의 성능을 갖는다.

ARM NEON은 ARM Cortex-A15까지는 배정밀도를 처리할 수 없고, 단정밀도만 가능하다. ARM NEON은 128비트 폭으로 단정밀도일 경우 4 FLOPS/Cycle 이지만, ARM Cortex-A15에는 FMA가 있으므로 8 FLOPS/Cycle이다.

배정밀도는, ARM Cortex-A9는 VFPv3에 의해 2 cycle로 덧셈 2회, 곱셈 1회, 총 3연산을 할 수 있으므로, 1.5 FLOPS/Cycle이다. ARM Cortex-A15는 VFPv4에 의해, 1 cycle에 1회 FMA를 계산할 수 있으므로, 2 FLOPS/Cycle이다. ARM Cortex-A57부터는 NEON에서도 배정밀도를 처리할 수 있게 된다.

3.5. 게임 콘솔

드림캐스트는 1.4GFLOPS(SH-4 단독), Xbox는 1.5GFLOPS의 성능을 가진다. Xbox 360은 115.2GFLOPS(Xenon 단독), 240GFLOPS(Xenos GPU 단독), 1TFLOPS (시스템 전체, 자세한 내역은 불명)의 성능을 나타낸다. Xbox One은 1.3TFLOPS(GPU 단독), Xbox One S는 1.4TFLOPS(GPU 단독), Xbox One X는 6TFLOPS(GPU 단독)이다. Xbox Series X는 12.15TFLOPS(GPU 단독), Xbox Series S는 4TFLOPS(GPU 단독)의 성능을 보인다.

PlayStation Portable은 CPU 2.6GFLOPS / 9.6GFLOPS (피크 시/시스템 전체)의 성능을 가지며, PlayStation 2는 6.2GFLOPS(Emotion Engine 단독)이다. PlayStation 3는 218GFLOPS(Cell Broadband Engine 단독), 224GFLOPS(RSX 단독), 2TFLOPS (시스템 전체, 자세한 내역은 불명)의 성능을 갖는다. PlayStation 4는 1.84TFLOPS(GPU 단독), PlayStation 4 Pro는 4.2TFLOPS(GPU 단독)이다. PlayStation 5는 10.3TFLOPS(GPU 단독)의 성능을 가진다.

3.6. 슈퍼컴퓨터

페타플롭스(PetaFlops)는 1초당 1,000조 번의 수학 연산처리를 뜻하는 말로, 슈퍼컴퓨터의 성능을 나타내는 주요 지표로 사용된다. 미국은 1991년부터 페타플롭스 컴퓨터 연구 개발을 검토해왔으며, 일본도 2010년까지 페타플롭스 성능을 가진 슈퍼컴퓨터를 개발할 계획을 발표한 바 있다. IBM, 휴렛패커드, 선마이크로시스템스, 실리콘그래픽스(SGI) 등 여러 기업들이 페타플롭스 슈퍼컴퓨터 개발에 참여하고 있다.

역대 슈퍼컴퓨터들의 FLOPS 성능은 다음과 같다:

👆

좌우로 밀어서 보기


이름	FLOPS	이론값/실측값	시스템 개요
ENIAC	300FLOPS		1946년 완성
CRAY-1	160MFLOPS	배정밀도, 이론 피크 성능 값	1976년 초호기 납품
딥 블루	11.38GFLOPS		1989년 개발 시작, 1997년 체스 세계 챔피언과 대결하여 승리
지구 시뮬레이터 (제1세대)	35.86TFLOPS	배정밀도, LINPACK 실측값	TOP500 Jun 2002 1위
TSUBAME 1.2	87.01TFLOPS	배정밀도, LINPACK 실측값	TOP500 Jun 2009 41위
T2K 오픈 슈퍼컴퓨터	101.74TFLOPS	배정밀도, LINPACK 실측값
지구 시뮬레이터 (제2세대)	122.4TFLOPS		TOP500 Jun 2009 16위
GPU 클러스터 (나가사키 대학, 하마다 고)	158TFLOPS
Blue Gene/L	478.2TFLOPS		TOP500 Nov 2007 1위
IBM Roadrunner	1.105PFLOPS	배정밀도, LINPACK 실측값	TOP500 Jun 2008 1위
TSUBAME 2.0	1.192PFLOPS	배정밀도, LINPACK 실측값	TOP500 Nov 2011 4위
톈허 1호 A	2.566PFLOPS	배정밀도, LINPACK 실측값	TOP500 Nov 2010 1위
TSUBAME 2.5	2.843PFLOPS	배정밀도, LINPACK 실측값	TOP500 Nov 2013 11위 , Green500 6위
게이	10.510PFLOPS	배정밀도, LINPACK 실측값	TOP500 Jun 2011 1위
IBM Sequoia	17.172PFLOPS	배정밀도, LINPACK 실측값	TOP500 Nov 2012 1위
톈허 2호	61.445PFLOPS	배정밀도, LINPACK 실측값	TOP500 Jun 2013 1위
선웨이 타이후 광	93.01PFLOPS		TOP500 Jun 2016 1위
서밋	143.5PFLOPS		TOP500 Jun 2018 1위
후가쿠	442.01PFLOPS	배정밀도, LINPACK 실측값	TOP500 Jun 2020 1위
프론티어	1102.00PFLOPS (1.102EFLOPS)	배정밀도, LINPACK 실측값	TOP500 Jun 2022 1위

3.7. 분산 컴퓨팅

분산 컴퓨팅은 슈퍼컴퓨터와 비슷한 성능 구조를 가지며, 성능을 나타낼 때 플롭스 단위를 사용한다.

* 코리아앳홈은 325GFLOPS 정도를 기록한다.
* 세티앳홈은 평균적으로 610TFLOPS 이상을 기록한다.
* BOINC는 7041TFLOPS(7.04PFLOPS) 정도를 기록한다.

👆

좌우로 밀어서 보기


명칭	FLOPS	날짜	참여 대수	Active율
BOINC (Berkeley Open Infrastructure for Network Computing)	2.958PFLOPS	2009년 12월 6일
	8.563PFLOPS	2013년 12월 26일	986,613대	8.51%
	161.081PFLOPS	2015년 2월 3일	376,688대	3.54%
	160.76PFLOPS	2017년 3월 14일	739,507대	4.79%
SETI@home (BOINC에 포함)	658.210TFLOPS	2013년 12월 26일
SETI@home (BOINC에 포함)	731.599TFLOPS	2009년 12월 6일
UD Agent	65TFLOPS	2001년 10월 01일	약 96만 대
Folding@home	4.273PFLOPS	2008년 11월 22일	Active 353,966 CPU (참가 약 355만 대)
	5.427PFLOPS	2012년 3월 23일
	2.4EFLOPS	2020년 4월 14일

3.8. GPU

NVIDIA의 GeForce 시리즈는 8600 GTS(92.8 GFLOPS)부터 RTX 4090(82.58 TFLOPS)까지 다양한 성능을 제공한다. 단정밀도 연산 성능은 모델에 따라 크게 차이가 나며, 최신 모델일수록 더 높은 FLOPS 값을 가진다. 예를 들어, GTX 480은 1.345 TFLOPS, GTX 1080은 8.872 TFLOPS, RTX 2080은 10.07 TFLOPS, 그리고 RTX 3080은 29.77 TFLOPS의 단정밀도 성능을 제공한다.

AMD의 Radeon 시리즈는 HD 3650(174 GFLOPS)부터 R9 295X2(11.467 TFLOPS)까지 다양한 성능을 제공한다. NVIDIA와 마찬가지로, 최신 모델일수록 더 높은 FLOPS 값을 가진다. HD 5870은 2.72 TFLOPS, HD 7970 GHz 에디션은 4.301 TFLOPS의 단정밀도 성능을 제공한다.

Intel 내장 그래픽은 Intel GMA X4500(32 GFLOPS)부터 Iris Pro Graphics 6200(883 GFLOPS)까지 성능이 향상되었다. HD Graphics의 각 EU는 4-way SIMD 연산기를 갖추고 있으며, Sandy Bridge 이전 세대에서는 4 FLOPS/EU, Sandy Bridge 세대에서는 8 FLOPS/EU, Ivy Bridge 세대 이후에는 16 FLOPS/EU의 성능을 제공한다.

모바일 GPU의 경우, 퀄컴 스냅드래곤 시리즈의 Adreno GPU는 Adreno 200(3.92 GFLOPS)부터 Adreno 430(324 GFLOPS)까지 성능이 향상되었다. 애플 A 시리즈 칩에 탑재된 GPU는 A4(1.6 GFLOPS)부터 A16(2.0 TFLOPS)까지, M 시리즈 칩에 탑재된 GPU는 M1(2.6 TFLOPS)부터 M2 Ultra(27.2 TFLOPS)까지 성능이 크게 향상되었다. 삼성 엑시노스 시리즈의 GPU는 Exynos 3(3.2 GFLOPS)부터 Exynos 5420 Octa(102.4 GFLOPS)까지 성능이 향상되었다.

다음은 다양한 GPU의 FLOPS 성능을 정리한 표이다.

👆

좌우로 밀어서 보기


제조사	시리즈	모델	단정밀도 FLOPS
NVIDIA	GeForce	8600 GTS	92.8 GFLOPS
		8800 GT	336 GFLOPS
		9600 GT	208 GFLOPS
		9800 GTX+	470 GFLOPS
		GTX 280	622 GFLOPS
		GTX 480	1.345 TFLOPS
		GTX 580	1.581 TFLOPS
		GTX 680	3.090 TFLOPS
		GTX 780 Ti Special Black Edition	5.76 TFLOPS
		GTX TITAN X	6.144 TFLOPS
		GTX 980	4.612 TFLOPS
		GTX 1080	8.872 TFLOPS
		RTX 2080	10.07 TFLOPS
NVIDIA	GeForce RTX	RTX 3080	29.77 TFLOPS
		RTX 4080 16GB	48.74 TFLOPS
		RTX 4090	82.58 TFLOPS
AMD	Radeon	HD 3650	174 GFLOPS
		HD 3870	496 GFLOPS
		HD 4670	480 GFLOPS
		HD 4870	1.2 TFLOPS
		HD 5870	2.72 TFLOPS
		HD 6970	2.703 TFLOPS
		HD 7970 GHz 에디션	4.301 TFLOPS
		R9 290X	5.632 TFLOPS
		R9 295X2	11.467 TFLOPS
인텔	내장 그래픽	Intel GMA X4500	32 GFLOPS
		Intel HD Graphics (Clarkdale)	43.2 GFLOPS
		Intel HD Graphics 3000	129.6 GFLOPS
		Intel HD Graphics 4000	345.6 GFLOPS
		Intel HD Graphics (Haswell)	192 GFLOPS
		Intel Iris Pro Graphics 5200	832 GFLOPS
		Iris Pro Graphics 6200	883 GFLOPS
Apple	Apple Silicon	A4	1.6 GFLOPS
		A5	14.4 GFLOPS
		A5X	36 GFLOPS
		A6	27 GFLOPS
		A6X	80 GFLOPS
		A7	115.2 GFLOPS
		A8	115.2 GFLOPS
		A8X	230.4 GFLOPS
		A9	249.6 GFLOPS
		A9X	499.2 GFLOPS
		A10 Fusion	364.8 GFLOPS
		A10X Fusion	768 GFLOPS
		A11	409.3 GFLOPS
		A12 Bionic	576 GFLOPS
		A12X Bionic	1200 GFLOPS
		A12Z Bionic	1372 GFLOPS
		A13 Bionic	691 GFLOPS
Apple	Apple Silicon	A14 Bionic	998 GFLOPS
		A15	1.5 TFLOPS
		A16	2.0 TFLOPS
		M1	2.6 TFLOPS
		M1 Pro	5.3 TFLOPS
		M1 Max	10.6 TFLOPS
		M1 Ultra	21.2 TFLOPS
		M2	3.6 TFLOPS
		M2 Pro	6.8 TFLOPS
		M2 Ultra	27.2 TFLOPS
퀄컴	스냅드래곤	Adreno 200	3.92 GFLOPS
		Adreno 203/205	7.84 GFLOPS
		Adreno 220	17.0 GFLOPS
		Adreno 225	25.6 GFLOPS
		Adreno 320 (Snapdragon S4 Pro)	57 GFLOPS
		Adreno 320 (Snapdragon 600)	86.4 GFLOPS
		Adreno 330 (Snapdragon 800)	129.6 GFLOPS
		Adreno 430 (Snapdragon 810)	324 GFLOPS
삼성전자	엑시노스	Exynos 3	3.2 GFLOPS
		Exynos 4 Dual (45nm)	9.6 GFLOPS
		Exynos 4 Dual (32nm)	14.4 GFLOPS
		Exynos 4 Quad	15.84 GFLOPS
		Exynos 5 Dual	72.5 GFLOPS
		Exynos 5420 Octa	102.4 GFLOPS

3.9. GPU 가속기

wikitext

👆

좌우로 밀어서 보기


이름	코어 수	클럭	FLOPS	이론치/실측치	이론치의 계산식
NVIDIA Tesla C870	128	1.35 GHz	단정밀도: 345.6 GFLOPS 배정밀도: 불가능	이론치	단정밀도: 2 FLOPS/Clock × 1.35 GHz × 128코어
NVIDIA Tesla C1060	240	1.3 GHz	단정밀도: 622 GFLOPS 배정밀도: 78 GFLOPS	이론치	단정밀도: 2 FLOPS/Clock × 1.3 GHz × 240코어 배정밀도: 1/4 FLOPS/Clock × 1.3 GHz × 240코어
NVIDIA Tesla C2070	448	1.15 GHz	단정밀도: 1.03 TFLOPS 배정밀도: 0.515 TFLOPS	이론치	단정밀도: 2 FLOPS/Clock × 1.15 GHz × 448코어 배정밀도: 1 FLOPS/Clock × 1.15 GHz × 448코어
NVIDIA Tesla K10 (2GPU 합계)	3072	745 MHz	단정밀도: 4.58 TFLOPS 배정밀도: 0.19 TFLOPS	이론치	단정밀도: 2 FLOPS/Clock × 745 MHz × 3072코어 배정밀도: 1/12 FLOPS/Clock × 745 MHz × 3072코어
NVIDIA Tesla K20	2496	706 MHz	단정밀도: 3.52 TFLOPS 배정밀도: 1.17 TFLOPS	이론치	단정밀도: 2 FLOPS/Clock × 706 MHz × 2496코어 배정밀도: 2/3 FLOPS/Clock × 706 MHz × 2496코어
NVIDIA Tesla K40	2880	745 MHz	단정밀도: 4.29 TFLOPS 배정밀도: 1.43 TFLOPS	이론치	단정밀도: 2 FLOPS/Clock × 745 MHz × 2880코어 배정밀도: 2/3 FLOPS/Clock × 745 MHz × 2880코어
NVIDIA Tesla K80 (2GPU 합계)	4992	562 MHz	단정밀도: 5.61 TFLOPS 배정밀도: 1.87 TFLOPS	이론치	단정밀도: 2 FLOPS/Clock × 562 MHz × 4992코어 배정밀도: 2/3 FLOPS/Clock × 562 MHz × 4992코어
NVIDIA Tesla P100 16GB	3584	1329MHz	단정밀도: 9.526 TFLOPS 배정밀도: 4.763 TFLOPS	이론치	단정밀도: 2 FLOPS/Clock × 1329 MHz × 3584코어 배정밀도: 1 FLOPS/Clock × 1329 MHz × 3584코어
AMD FirePro S9150	2816		단정밀도: 5.07 TFLOPS 배정밀도: 2.53 TFLOPS	이론치
AMD FirePro S9170	2816		단정밀도: 5.24 TFLOPS 배정밀도: 2.62 TFLOPS	이론치

3.10. FPGA

알테라

👆

좌우로 밀어서 보기

명칭	클록	FLOPS (단정밀도, 곱셈과 덧셈)	이론값/실측값	이론값의 계산식
Stratix IV	445 MHz	이론값 245 GFLOPS 실측값 171 GFLOPS	이론값	64x64 행렬 곱셈 1개당 128개의 DSP를 소비하며 24.45 GFLOPS. DSP는 최대 1288개이므로 244.5 GFLOPS. FPGA에서는 정수 곱셈과 덧셈은 1클록으로 계산할 수 있지만, GPU와 달리 부동 소수점 곱셈은 445MHz 동작에서 11클록이 필요。이에 반해 GPU는 1클록으로 처리할 수 있다.
Stratix V	388 MHz	1.568 TFLOPS	이론값	2048 multiplier / 64 * 49 GFLOPS (388 MHz) = 1.568 TFLOPS。단정밀도 곱셈에는 27x27의 multiplier가 단정밀도 부동 소수점 수당 64개 필요.
Stratix 10	1 GHz	10 TFLOPS	이론값	2 FLOPS * 5000 DSP * 1 GHz = 10 TFLOPS。

자일링스

👆

좌우로 밀어서 보기

명칭	FLOPS (단정밀도)	이론값/실측값
Virtex-5 SX240T	162.52 GFLOPS	이론값
Virtex-6 SX475T	450 GFLOPS	이론값
Virtex-7	833 GFLOPS	이론값
Virtex UltraScale	1.739 TFLOPS	이론값

4. 단위당 연산 비용

4.1. 하드웨어 비용

컴퓨터의 연산 능력과 연산 능력당 하드웨어 비용 감소가 비약적으로 증가했다.

👆

좌우로 밀어서 보기

시기	GFLOPS당 비용	기술	비고
1961년	1,100,000,000,000 달러	IBM 1620	개당 64,000 달러인 IBM 1620 유닛이 1,700만개가 있어야 1GFLOPS가 될 수 있다. 곱셈 연산은 17.7 ms가 소요된다.
1984년	15,000,000 달러	크레이 X-MP
1997년	30,000 달러	펜티엄 프로 마이크로프로세서 16개로 구성된 베오울프 클러스터 2개
2000년 4월	1,000 달러	[https://web.archive.org/web/20080722203857/http://tsg.anu.edu.au/Projects/Beowulf/ 버닙 베오울프 클러스터]	최초로 1 달러/MFLOPS의 장벽을 깼으며, 2000년에 병렬 계산 기술의 향상을 목적으로 수여되는 상인 고든 벨 상을 받았다.
2000년 5월	640 달러	[http://aggregate.org/KLAT2/ KLAT2]
2003년 8월	82 달러	[http://aggregate.org/KASY0/ KASY0]
2007년 8월	48 달러	[http://www.calvin.edu/~adams/research/microwulf/ Microwulf]
2011년 3월	1.80 달러	HPU4Science	30,000 달러로 12.5에서 20 테라플롭스에 해당하는 연산능력의 컴퓨터를 게이머용 그래픽 프로세서로 만들었다.

4.2. 연산 비용

Green500 목록에 따르면, 2010년 6월 현재 가장 효율적인 TOP500 슈퍼컴퓨터는 와트당 773.38 메가플롭스를 연산한다. 이를 다시 환산하면, 기가플롭스를 연산하는데 최소한 1.29 와트가 필요하다는 것을 알 수 있다.

5. 페타플롭스

페타플롭스(PetaFlops)는 1초당 1,000조 번의 수학 연산처리를 뜻하는 말로, 페타플롭(PetaFlop) 또는 피플롭(PFLOP)이라고도 한다. 이는 국제단위계(SI)에서 10¹⁵을 나타내는 접두어 페타(Peta)와 초당 수행 가능한 부동소수점 연산 횟수를 나타내는 컴퓨터 성능 단위 플롭스(Flops)를 합쳐 만든 신조어이다. 1페타플롭스 프로세서를 장착한 컴퓨터는 펜티엄 133Mz 프로세서보다 1억 배 빠른 연산처리 속도를 갖는다.

미국은 1991년 퍼듀 대학교에서 열린 고성능 컴퓨팅과 통신(HPCC) 워크숍에서 페타플롭스 컴퓨터 연구 개발을 검토한 뒤 매년 관련 워크숍과 심포지엄을 개최하며 이 분야 연구를 주도하고 있다. 일본 문부과학성 자문기구인 과학기술·학술심의회도 2005년 1월 발표한 '제3기(2006~10) 과학기술 기본계획'에 포함된 '10대기간기술개발안'에서 2010년까지 페타플롭스 성능을 가진 슈퍼컴퓨터를 개발할 계획이라고 밝혔다. IBM, 휴렛 팩커드, 선 마이크로시스템즈, 실리콘 그래픽스 등 미국의 주요 컴퓨터 업체들도 페타플롭스급 슈퍼컴퓨터 개발에 참여하고 있다. 특히 IBM은 2010년까지 페타플롭스 슈퍼컴퓨터 X1을 상용화할 계획이라고 발표했다.