플롭스
1. 개요
플롭스(FLOPS, FLoating-point Operations Per Second)는 컴퓨터의 부동 소수점 연산 속도를 나타내는 단위로, 연산식은 `cores × clock × FLOPs/cycle`로 계산된다. 플롭스는 PC, 서버, ARM, 게임 콘솔, 슈퍼컴퓨터, 분산 컴퓨팅, GPU, GPU 가속기, FPGA 등 다양한 하드웨어에서 측정되며, 하드웨어의 발전과 함께 연산 능력 및 단위당 하드웨어 비용 감소가 이루어졌다. 페타플롭스는 1초당 1,000조 번의 연산 처리를 의미하며, 슈퍼컴퓨터의 성능을 나타내는 지표로 사용된다.
-
부동소수점 -
IEEE 754
IEEE 754는 부동소수점 숫자를 표현하고 처리하기 위한 국제 표준으로, 다양한 형식과 연산, 반올림 규칙, 예외 처리 등을 정의한다. -
부동소수점 -
IEEE 754-1985
IEEE 754-1985는 부동소수점 수의 표현, 연산, 반올림 등을 정의하는 기술 표준으로, 부호 비트, 지수, 가수를 사용하여 숫자를 표현하며, 단정밀도, 배정밀도, 확장 정밀도 형식을 제공하고, 0, 무한대, NaN과 같은 특수한 값을 정의하며, 표준 연산과 다양한 함수 및 술어를 제공한다. -
컴퓨터 벤치마크 -
벤치마크 (컴퓨팅)
벤치마크는 컴퓨터 시스템 성능 측정 지표 또는 과정 자체를 의미하며, 시스템 성능 비교를 위해 특정 작업 시뮬레이션을 통해 시스템 또는 구성 요소의 성능을 측정하는 데 사용되지만, 결과가 과장되거나 다른 중요한 요소들을 간과할 수 있다는 문제점도 존재한다. -
컴퓨터 벤치마크 -
윈도우 시스템 평가 도구
윈도우 시스템 평가 도구는 윈도우 비스타부터 도입된 시스템 성능 측정 도구로, CPU, 메모리, 그래픽 등 하드웨어 및 소프트웨어 구성 요소의 성능을 평가하여 윈도우 체험 지수를 제공한다. -
진동수의 단위 -
헤르츠
헤르츠는 1초당 발생하는 주기적 현상의 빈도를 나타내는 SI 단위로, 세슘-133 원자의 초미세 분리 주파수를 기준으로 정의되며, 전자기파, 중력파, 컴퓨터 처리 속도 등 다양한 분야에서 주파수 측정에 활용되고 독일 물리학자 하인리히 루돌프 헤르츠의 이름을 땄다. -
진동수의 단위 -
베크렐
베크렐은 1초당 1개의 원자핵 붕괴를 나타내는 방사능 활동량의 SI 단위로, 방사능 세기를 측정하며 퀴리와 러더퍼드 대신 사용되고, 방사능 농도 표시에 활용되지만, 방사선 위험성 평가는 흡수선량, 유효선량과 함께 고려해야 한다.
3. 대표적인 하드웨어의 부동 소수점 연산 능력
3.1. PC (Intel)
인텔 CPU의 FLOPS 성능은 펜티엄부터 코어 i9까지 꾸준히 발전해왔다. 코어 수, 클럭, 배정밀도 FLOPS, 이론값/실측값, 이론값 계산식은 다음과 같다.
| 이름 | 코어 수 | 클럭 | FLOPS(배정밀도) | 이론값/실측값 | 이론값 계산식 |
|---|---|---|---|---|---|
| 펜티엄 | 1 코어 | 300MHz | 300 MFLOPS | 이론값 | 1 FLOPS/클럭 × 300MHz |
| 펜티엄 II | 1 코어 | 450MHz | 450 MFLOPS | 이론값 | 1 FLOPS/클럭 × 450MHz |
| 펜티엄 III | 1 코어 | 1.4GHz | 2.1 GFLOPS | 이론값 | 1.5 FLOPS/클럭 × 1.4GHz |
| 펜티엄 M | 1 코어 | 2.26GHz | 3.39 GFLOPS | 이론값 | 1.5 FLOPS/클럭 × 2.26GHz |
| 펜티엄 4 | 1 코어 | 3.8GHz | 7.6 GFLOPS | 이론값 | 2 FLOPS/클럭 × 3.8GHz |
| 펜티엄 D | 2 코어 | 3.6GHz | 14.4 GFLOPS | 이론값 | 2 FLOPS/클럭 × 3.6GHz × 2 코어 |
| 인텔 아톰(Bonnell) | 2 코어 | 1.8GHz | 5.4 GFLOPS | 이론값 | 1.5 FLOPS/클럭 × 1.8GHz × 2 코어 |
| 코어 솔로 | 1 코어 | 1.83GHz | 2.75 GFLOPS | 이론값 | 1.5 FLOPS/클럭 × 1.83GHz |
| 코어 듀오 | 2 코어 | 2.33GHz | 6.99 GFLOPS | 이론값 | 1.5 FLOPS/클럭 × 2.33GHz × 2 코어 |
| 코어 2 듀오 | 2 코어 | 3.33GHz | 26.64 GFLOPS | 이론값 | 4 FLOPS/클럭 × 3.33GHz × 2 코어 |
| 코어 2 익스트림 | 4 코어 | 3.2GHz | 51.2 GFLOPS | 이론값 | 4 FLOPS/클럭 × 3.2GHz × 4 코어 |
| 코어 i7(네할렘) | 4 코어 | 3.33GHz | 53.28 GFLOPS | 이론값 | 4 FLOPS/클럭 × 3.33GHz × 4 코어 |
| 코어 i7(웨스트미어) | 6 코어 | 3.46GHz | 83.04 GFLOPS | 이론값 | 4 FLOPS/클럭 × 3.46GHz × 6 코어 |
| 코어 i7(샌디 브릿지) | 6 코어 | 3.3GHz | 158.4 GFLOPS | 이론값 | 8 FLOPS/클럭 × 3.3GHz × 6 코어 |
| 코어 i7(하스웰) | 8 코어 | 3.0 GHz (베이스) 3.5 GHz (터보) | 384 GFLOPS (베이스) 448 GFLOPS (터보) | 이론값 | 16 FLOPS/클럭 × 3.0 GHz × 8 코어 |
| 코어 i7(브로드웰) | 10 코어 | 3.0 GHz (베이스) 3.5 GHz (터보) | 480 GFLOPS (베이스) 560 GFLOPS (터보) | 이론값 | 16 FLOPS/클럭 × 3.0 GHz × 10 코어 |
| 코어 i9(로켓 레이크) | 8 코어 | 5.2 GHz (터보) | 665 GFLOPS (터보) | 이론값 | 16 FLOPS/클럭 × 5.2 GHz × 8 코어 |
| 코어 i9(앨더 레이크) | P8/E8 | 5.2/4.0 GHz (터보) | 1.18 TFLOPS (터보) | 이론값 | 16 FLOPS/클럭 × 5.2 GHz × 8 코어 |
코어 2 듀오는 클럭당 SSE를 통해 덧셈과 곱셈을 계산하여 128비트 폭에서 배정밀도로 4 FLOPS/클럭을 달성했다. 샌디 브릿지에 탑재된 인텔 AVX는 256비트 폭으로 8 FLOPS/클럭을, 인텔 FMA는 융합 곱셈-덧셈 명령으로 1 명령에 곱셈과 덧셈 2 연산을 처리하여 16 FLOPS/클럭을 가능하게 했다. 단정밀도의 경우 연산 횟수는 2배이다. 아톰은 클럭당 1개의 SSE 덧셈 명령과 2 클럭당 1개의 SSE 곱셈 명령을 실행하여 배정밀도로 3 FLOPS/클럭이다.
3.2. 서버 (Intel)
wikitable
| 이름 | 코어 수 | 클럭 | FLOPS(배정밀도) | 이론값/실측값 | 이론값 계산식 | 참조 |
|---|---|---|---|---|---|---|
| 제온(Xeon) | 8 코어 | 2.26 GHz | 72.32 GFLOPS | 이론값 | 4 FLOPS/클럭 × 2.26 GHz × 8코어 | |
| 제온(Xeon) | 10 코어 | 2.4 GHz | 96 GFLOPS | 이론값 | 4 FLOPS/클럭 × 2.4 GHz × 10코어 | |
| 제온(Xeon) | 8 코어 | 3.1 GHz | 198.4 GFLOPS | 이론값 | 8 FLOPS/클럭 × 3.1 GHz × 8코어 | |
| 제온(Xeon) | 15 코어 | 2.8 GHz | 336 GFLOPS | 이론값 | 8 FLOPS/클럭 × 2.8 GHz × 15코어 | |
| 제온(Xeon) | 18 코어 | 2.3 GHz | 662.4 GFLOPS | 이론값 | 16 FLOPS/클럭 × 2.3 GHz × 18코어 | |
| 제온(Xeon) | 24 코어 | 2.2 GHz(베이스) 3.4 GHz(터보) | 0.845 TFLOPS(베이스) 1.306 TFLOPS(터보) | 이론값 | 16 FLOPS/클럭 × 3.4 GHz × 24코어 | |
| 제온 파이(Xeon Phi) | 61 코어 | 1.238 GHz(베이스) 1.33 GHz(터보) | 1.208 TFLOPS(베이스) 1.298 TFLOPS(터보) | 이론값 | 16 FLOPS/클럭 × 1.33 GHz × 61코어 | |
| 제온 파이(Xeon Phi) | 72 코어 | 1.5 GHz(베이스) 1.7 GHz(터보) | 3.456 TFLOPS(베이스) 3.917 TFLOPS(터보) | 이론값 | 32 FLOPS/클럭 × 1.7 GHz × 72코어 |
3.3. PC/Server (AMD)
AMD는 Phenom II (X4 980 Black Edition, X6 1100T Black Edition), Bobcat 마이크로아키텍처 기반 Fusion E 시리즈, Magny-Cours 및 Interlagos , Bulldozer 마이크로아키텍처 기반 FX, Vermeer 아키텍처 기반 Ryzen 9, 그리고 Milan 아키텍처 기반 EPYC 프로세서 등을 출시했다.
Bulldozer는 1 모듈당 2개의 128비트 FMA(곱셈-누산) 연산기를 가지고 있으며, 배정밀도는 2개의 FMA 명령을 동시에 실행하여 8 FLOPS/Cycle을 달성한다.
3.4. ARM
ARM 프로세서의 FLOPS 성능은 다음과 같다.
| 이름 | 코어 수 | 클럭 | FLOPS | 이론치/실측치 | 이론치 계산식 | 참조 |
|---|---|---|---|---|---|---|
| ARM11 | 1 코어 | 700MHz | 단정밀도: 700 MFLOPS | 이론치 | 단정밀도: 1 FLOPS/Clock × 700MHz | |
| ARM Cortex-A8 | 1 코어 | 1GHz | 단정밀도: 4 GFLOPS | 이론치 | 단정밀도: 4 FLOPS/Clock × 1GHz | |
| ARM Cortex-A9 | 4 코어 | 1.5GHz | 단정밀도: 24 GFLOPS 배정밀도: 9 GFLOPS | 이론치 | 단정밀도: 4 FLOPS/Clock × 1.5GHz × 4 코어 배정밀도: 1.5 FLOPS/Clock × 1.5GHz × 4 코어 | |
| ARM Cortex-A15 | 4 코어 | 2.0GHz | 단정밀도: 64 GFLOPS 배정밀도: 16 GFLOPS | 이론치 | 단정밀도: 8 FLOPS/Clock × 2.0GHz × 4 코어 배정밀도: 2 FLOPS/Clock × 2.0GHz × 4 코어 | |
| ARM Cortex-A57 | 4 코어 | 2.8GHz | 단정밀도: 89.6 GFLOPS 배정밀도: 44.8 GFLOPS | 이론치 | 단정밀도: 8 FLOPS/Clock × 2.8GHz × 4 코어 배정밀도: 4 FLOPS/Clock × 2.8GHz × 4 코어 |
NetWalker PC-Z1의 CPU는 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(동일 VFP)의 성능을 갖는다.
ARM NEON은 ARM Cortex-A15까지는 배정밀도를 처리할 수 없고, 단정밀도만 가능하다. ARM NEON은 128비트 폭으로 단정밀도일 경우 4 FLOPS/Cycle 이지만, ARM Cortex-A15에는 FMA가 있으므로 8 FLOPS/Cycle이다.
배정밀도는, ARM Cortex-A9는 VFPv3에 의해 2 cycle로 덧셈 2회, 곱셈 1회, 총 3연산을 할 수 있으므로, 1.5 FLOPS/Cycle이다. ARM Cortex-A15는 VFPv4에 의해, 1 cycle에 1회 FMA를 계산할 수 있으므로, 2 FLOPS/Cycle이다. ARM Cortex-A57부터는 NEON에서도 배정밀도를 처리할 수 있게 된다.
3.5. 게임 콘솔
드림캐스트는 1.4GFLOPS(SH-4 단독), Xbox는 1.5GFLOPS의 성능을 가진다. Xbox 360은 115.2GFLOPS(Xenon 단독), 240GFLOPS(Xenos GPU 단독), 1TFLOPS (시스템 전체, 자세한 내역은 불명)의 성능을 나타낸다. Xbox One은 1.3TFLOPS(GPU 단독), Xbox One S는 1.4TFLOPS(GPU 단독), Xbox One X는 6TFLOPS(GPU 단독)이다. Xbox Series X는 12.15TFLOPS(GPU 단독), Xbox Series S는 4TFLOPS(GPU 단독)의 성능을 보인다.
PlayStation Portable은 CPU 2.6GFLOPS / 9.6GFLOPS (피크 시/시스템 전체)의 성능을 가지며, PlayStation 2는 6.2GFLOPS(Emotion Engine 단독)이다. PlayStation 3는 218GFLOPS(Cell Broadband Engine 단독), 224GFLOPS(RSX 단독), 2TFLOPS (시스템 전체, 자세한 내역은 불명)의 성능을 갖는다. PlayStation 4는 1.84TFLOPS(GPU 단독), PlayStation 4 Pro는 4.2TFLOPS(GPU 단독)이다. PlayStation 5는 10.3TFLOPS(GPU 단독)의 성능을 가진다.
3.6. 슈퍼컴퓨터
페타플롭스(PetaFlops)는 1초당 1,000조 번의 수학 연산처리를 뜻하는 말로, 슈퍼컴퓨터의 성능을 나타내는 주요 지표로 사용된다. 미국은 1991년부터 페타플롭스 컴퓨터 연구 개발을 검토해왔으며, 일본도 2010년까지 페타플롭스 성능을 가진 슈퍼컴퓨터를 개발할 계획을 발표한 바 있다. IBM, 휴렛패커드, 선마이크로시스템스, 실리콘그래픽스(SGI) 등 여러 기업들이 페타플롭스 슈퍼컴퓨터 개발에 참여하고 있다.
역대 슈퍼컴퓨터들의 FLOPS 성능은 다음과 같다:
| 이름 | FLOPS | 이론값/실측값 | 시스템 개요 | 참고 |
|---|---|---|---|---|
| ENIAC | 300FLOPS | 1946년 완성 | ||
| CRAY-1 | 160MFLOPS | 배정밀도, 이론 피크 성능 값 | 1976년 초호기 납품 | |
| 딥 블루 | 11.38GFLOPS | 1989년 개발 시작, 1997년 체스 세계 챔피언과 대결하여 승리 | ||
| 지구 시뮬레이터 (제1세대) | 35.86TFLOPS | 배정밀도, LINPACK 실측값 | TOP500 Jun 2002 1위 | |
| TSUBAME 1.2 | 87.01TFLOPS | 배정밀도, LINPACK 실측값 | TOP500 Jun 2009 41위 | |
| T2K 오픈 슈퍼컴퓨터 | 101.74TFLOPS | 배정밀도, LINPACK 실측값 | ||
| 지구 시뮬레이터 (제2세대) | 122.4TFLOPS | TOP500 Jun 2009 16위 | ||
| GPU 클러스터 (나가사키 대학, 하마다 고) | 158TFLOPS | |||
| Blue Gene/L | 478.2TFLOPS | TOP500 Nov 2007 1위 | ||
| IBM Roadrunner | 1.105PFLOPS | 배정밀도, LINPACK 실측값 | TOP500 Jun 2008 1위 | |
| TSUBAME 2.0 | 1.192PFLOPS | 배정밀도, LINPACK 실측값 | TOP500 Nov 2011 4위 | |
| 톈허 1호 A | 2.566PFLOPS | 배정밀도, LINPACK 실측값 | TOP500 Nov 2010 1위 | |
| TSUBAME 2.5 | 2.843PFLOPS | 배정밀도, LINPACK 실측값 | TOP500 Nov 2013 11위 , Green500 6위 | |
| 게이 | 10.510PFLOPS | 배정밀도, LINPACK 실측값 | TOP500 Jun 2011 1위 | |
| IBM Sequoia | 17.172PFLOPS | 배정밀도, LINPACK 실측값 | TOP500 Nov 2012 1위 | |
| 톈허 2호 | 61.445PFLOPS | 배정밀도, LINPACK 실측값 | TOP500 Jun 2013 1위 | |
| 선웨이 타이후 광 | 93.01PFLOPS | TOP500 Jun 2016 1위 | ||
| 서밋 | 143.5PFLOPS | TOP500 Jun 2018 1위 | ||
| 후가쿠 | 442.01PFLOPS | 배정밀도, LINPACK 실측값 | TOP500 Jun 2020 1위 | |
| 프론티어 | 1102.00PFLOPS (1.102EFLOPS) | 배정밀도, LINPACK 실측값 | TOP500 Jun 2022 1위 |
3.7. 분산 컴퓨팅
분산 컴퓨팅은 슈퍼컴퓨터와 비슷한 성능 구조를 가지며, 성능을 나타낼 때 플롭스 단위를 사용한다.
* 코리아앳홈은 325GFLOPS 정도를 기록한다.
* 세티앳홈은 평균적으로 610TFLOPS 이상을 기록한다.
* BOINC는 7041TFLOPS(7.04PFLOPS) 정도를 기록한다.
| 명칭 | FLOPS | 날짜 | 참여 대수 | Active율 | 참조 |
|---|---|---|---|---|---|
| BOINC (Berkeley Open Infrastructure for Network Computing) | 2.958PFLOPS | 2009년 12월 6일 | |||
| 8.563PFLOPS | 2013년 12월 26일 | 986,613대 | 8.51% | ||
| 161.081PFLOPS | 2015년 2월 3일 | 376,688대 | 3.54% | ||
| 160.76PFLOPS | 2017년 3월 14일 | 739,507대 | 4.79% | ||
| SETI@home (BOINC에 포함) | 658.210TFLOPS | 2013년 12월 26일 | |||
| 731.599TFLOPS | 2009년 12월 6일 | ||||
| UD Agent | 65TFLOPS | 2001년 10월 01일 | 약 96만 대 | ||
| Folding@home | 4.273PFLOPS | 2008년 11월 22일 | Active 353,966 CPU (참가 약 355만 대) | ||
| 5.427PFLOPS | 2012년 3월 23일 | ||||
| 2.4EFLOPS | 2020년 4월 14일 |
3.8. GPU
NVIDIA의 GeForce 시리즈는 8600 GTS(92.8 GFLOPS)부터 RTX 4090(82.58 TFLOPS)까지 다양한 성능을 제공한다. 단정밀도 연산 성능은 모델에 따라 크게 차이가 나며, 최신 모델일수록 더 높은 FLOPS 값을 가진다. 예를 들어, GTX 480은 1.345 TFLOPS, GTX 1080은 8.872 TFLOPS, RTX 2080은 10.07 TFLOPS, 그리고 RTX 3080은 29.77 TFLOPS의 단정밀도 성능을 제공한다.
AMD의 Radeon 시리즈는 HD 3650(174 GFLOPS)부터 R9 295X2(11.467 TFLOPS)까지 다양한 성능을 제공한다. NVIDIA와 마찬가지로, 최신 모델일수록 더 높은 FLOPS 값을 가진다. HD 5870은 2.72 TFLOPS, HD 7970 GHz 에디션은 4.301 TFLOPS의 단정밀도 성능을 제공한다.
Intel 내장 그래픽은 Intel GMA X4500(32 GFLOPS)부터 Iris Pro Graphics 6200(883 GFLOPS)까지 성능이 향상되었다. HD Graphics의 각 EU는 4-way SIMD 연산기를 갖추고 있으며, Sandy Bridge 이전 세대에서는 4 FLOPS/EU, Sandy Bridge 세대에서는 8 FLOPS/EU, Ivy Bridge 세대 이후에는 16 FLOPS/EU의 성능을 제공한다.
모바일 GPU의 경우, 퀄컴 스냅드래곤 시리즈의 Adreno GPU는 Adreno 200(3.92 GFLOPS)부터 Adreno 430(324 GFLOPS)까지 성능이 향상되었다. 애플 A 시리즈 칩에 탑재된 GPU는 A4(1.6 GFLOPS)부터 A16(2.0 TFLOPS)까지, M 시리즈 칩에 탑재된 GPU는 M1(2.6 TFLOPS)부터 M2 Ultra(27.2 TFLOPS)까지 성능이 크게 향상되었다. 삼성 엑시노스 시리즈의 GPU는 Exynos 3(3.2 GFLOPS)부터 Exynos 5420 Octa(102.4 GFLOPS)까지 성능이 향상되었다.
다음은 다양한 GPU의 FLOPS 성능을 정리한 표이다.
| 제조사 | 시리즈 | 모델 | 단정밀도 FLOPS | 비고 |
|---|---|---|---|---|
| NVIDIA | GeForce | 8600 GTS | 92.8 GFLOPS | |
| 8800 GT | 336 GFLOPS | |||
| 9600 GT | 208 GFLOPS | |||
| 9800 GTX+ | 470 GFLOPS | |||
| GTX 280 | 622 GFLOPS | |||
| GTX 480 | 1.345 TFLOPS | |||
| GTX 580 | 1.581 TFLOPS | |||
| GTX 680 | 3.090 TFLOPS | |||
| GTX 780 Ti Special Black Edition | 5.76 TFLOPS | |||
| GTX TITAN X | 6.144 TFLOPS | |||
| GTX 980 | 4.612 TFLOPS | |||
| GTX 1080 | 8.872 TFLOPS | |||
| RTX 2080 | 10.07 TFLOPS | |||
| NVIDIA | GeForce RTX | RTX 3080 | 29.77 TFLOPS | |
| RTX 4080 16GB | 48.74 TFLOPS | |||
| RTX 4090 | 82.58 TFLOPS | |||
| AMD | Radeon | HD 3650 | 174 GFLOPS | |
| HD 3870 | 496 GFLOPS | |||
| HD 4670 | 480 GFLOPS | |||
| HD 4870 | 1.2 TFLOPS | |||
| HD 5870 | 2.72 TFLOPS | |||
| HD 6970 | 2.703 TFLOPS | |||
| HD 7970 GHz 에디션 | 4.301 TFLOPS | |||
| R9 290X | 5.632 TFLOPS | |||
| R9 295X2 | 11.467 TFLOPS | |||
| 인텔 | 내장 그래픽 | Intel GMA X4500 | 32 GFLOPS | |
| Intel HD Graphics (Clarkdale) | 43.2 GFLOPS | |||
| Intel HD Graphics 3000 | 129.6 GFLOPS | |||
| Intel HD Graphics 4000 | 345.6 GFLOPS | |||
| Intel HD Graphics (Haswell) | 192 GFLOPS | |||
| Intel Iris Pro Graphics 5200 | 832 GFLOPS | |||
| Iris Pro Graphics 6200 | 883 GFLOPS | |||
| Apple | Apple Silicon | A4 | 1.6 GFLOPS | |
| A5 | 14.4 GFLOPS | |||
| A5X | 36 GFLOPS | |||
| A6 | 27 GFLOPS | |||
| A6X | 80 GFLOPS | |||
| A7 | 115.2 GFLOPS | |||
| A8 | 115.2 GFLOPS | |||
| A8X | 230.4 GFLOPS | |||
| A9 | 249.6 GFLOPS | |||
| A9X | 499.2 GFLOPS | |||
| A10 Fusion | 364.8 GFLOPS | |||
| A10X Fusion | 768 GFLOPS | |||
| A11 | 409.3 GFLOPS | |||
| A12 Bionic | 576 GFLOPS | |||
| A12X Bionic | 1200 GFLOPS | |||
| A12Z Bionic | 1372 GFLOPS | |||
| A13 Bionic | 691 GFLOPS | |||
| Apple | Apple Silicon | A14 Bionic | 998 GFLOPS | |
| A15 | 1.5 TFLOPS | |||
| A16 | 2.0 TFLOPS | |||
| M1 | 2.6 TFLOPS | |||
| M1 Pro | 5.3 TFLOPS | |||
| M1 Max | 10.6 TFLOPS | |||
| M1 Ultra | 21.2 TFLOPS | |||
| M2 | 3.6 TFLOPS | |||
| M2 Pro | 6.8 TFLOPS | |||
| M2 Ultra | 27.2 TFLOPS | |||
| 퀄컴 | 스냅드래곤 | Adreno 200 | 3.92 GFLOPS | |
| Adreno 203/205 | 7.84 GFLOPS | |||
| Adreno 220 | 17.0 GFLOPS | |||
| Adreno 225 | 25.6 GFLOPS | |||
| Adreno 320 (Snapdragon S4 Pro) | 57 GFLOPS | |||
| Adreno 320 (Snapdragon 600) | 86.4 GFLOPS | |||
| Adreno 330 (Snapdragon 800) | 129.6 GFLOPS | |||
| Adreno 430 (Snapdragon 810) | 324 GFLOPS | |||
| 삼성전자 | 엑시노스 | Exynos 3 | 3.2 GFLOPS | |
| Exynos 4 Dual (45nm) | 9.6 GFLOPS | |||
| Exynos 4 Dual (32nm) | 14.4 GFLOPS | |||
| Exynos 4 Quad | 15.84 GFLOPS | |||
| Exynos 5 Dual | 72.5 GFLOPS | |||
| Exynos 5420 Octa | 102.4 GFLOPS |
3.9. GPU 가속기
wikitext
3.10. FPGA
자일링스
4. 단위당 연산 비용
4.1. 하드웨어 비용
컴퓨터의 연산 능력과 연산 능력당 하드웨어 비용 감소가 비약적으로 증가했다.
| 시기 | GFLOPS당 비용 | 기술 | 비고 |
|---|---|---|---|
| 1961년 | 1,100,000,000,000 달러 | IBM 1620 | 개당 64,000 달러인 IBM 1620 유닛이 1,700만개가 있어야 1GFLOPS가 될 수 있다. 곱셈 연산은 17.7 ms가 소요된다. |
| 1984년 | 15,000,000 달러 | 크레이 X-MP | |
| 1997년 | 30,000 달러 | 펜티엄 프로 마이크로프로세서 16개로 구성된 베오울프 클러스터 2개 | |
| 2000년 4월 | 1,000 달러 | [https://web.archive.org/web/20080722203857/http://tsg.anu.edu.au/Projects/Beowulf/ 버닙 베오울프 클러스터] | 최초로 1 달러/MFLOPS의 장벽을 깼으며, 2000년에 병렬 계산 기술의 향상을 목적으로 수여되는 상인 고든 벨 상을 받았다. |
| 2000년 5월 | 640 달러 | [http://aggregate.org/KLAT2/ KLAT2] | |
| 2003년 8월 | 82 달러 | [http://aggregate.org/KASY0/ KASY0] | |
| 2007년 8월 | 48 달러 | [http://www.calvin.edu/~adams/research/microwulf/ Microwulf] | |
| 2011년 3월 | 1.80 달러 | HPU4Science | 30,000 달러로 12.5에서 20 테라플롭스에 해당하는 연산능력의 컴퓨터를 게이머용 그래픽 프로세서로 만들었다. |
4.2. 연산 비용
Green500 목록에 따르면, 2010년 6월 현재 가장 효율적인 TOP500 슈퍼컴퓨터는 와트당 773.38 메가플롭스를 연산한다. 이를 다시 환산하면, 기가플롭스를 연산하는데 최소한 1.29 와트가 필요하다는 것을 알 수 있다.
5. 페타플롭스
페타플롭스(PetaFlops)는 1초당 1,000조 번의 수학 연산처리를 뜻하는 말로, 페타플롭(PetaFlop) 또는 피플롭(PFLOP)이라고도 한다. 이는 국제단위계(SI)에서 1015을 나타내는 접두어 페타(Peta)와 초당 수행 가능한 부동소수점 연산 횟수를 나타내는 컴퓨터 성능 단위 플롭스(Flops)를 합쳐 만든 신조어이다. 1페타플롭스 프로세서를 장착한 컴퓨터는 펜티엄 133Mz 프로세서보다 1억 배 빠른 연산처리 속도를 갖는다.
미국은 1991년 퍼듀 대학교에서 열린 고성능 컴퓨팅과 통신(HPCC) 워크숍에서 페타플롭스 컴퓨터 연구 개발을 검토한 뒤 매년 관련 워크숍과 심포지엄을 개최하며 이 분야 연구를 주도하고 있다. 일본 문부과학성 자문기구인 과학기술·학술심의회도 2005년 1월 발표한 '제3기(2006~10) 과학기술 기본계획'에 포함된 '10대기간기술개발안'에서 2010년까지 페타플롭스 성능을 가진 슈퍼컴퓨터를 개발할 계획이라고 밝혔다. IBM, 휴렛 팩커드, 선 마이크로시스템즈, 실리콘 그래픽스 등 미국의 주요 컴퓨터 업체들도 페타플롭스급 슈퍼컴퓨터 개발에 참여하고 있다. 특히 IBM은 2010년까지 페타플롭스 슈퍼컴퓨터 X1을 상용화할 계획이라고 발표했다.