GPGPU

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

GPGPU(General-Purpose computing on Graphics Processing Units)는 그래픽 처리 장치(GPU)를 범용 컴퓨팅에 활용하는 기술이다. 초기에는 그래픽 파이프라인 가속에 국한되었던 GPU의 기능을 프로그래밍 가능한 셰이더와 부동 소수점 지원을 통해 행렬 및 벡터 연산 문제 해결에 활용하면서 발전했다. 2007년 엔비디아의 CUDA, 2008년 크로노스 그룹의 OpenCL 출시로 GPGPU 프로그래밍의 접근성이 향상되었고, 빅데이터, 가상 화폐, 인공 지능 분야의 발전에 기여했다. GPGPU는 데이터 병렬 처리에 특화되어 CPU보다 높은 연산 성능을 제공하지만, 조건 분기, 메모리 접근 패턴에 따라 성능 차이가 크다. GPGPU는 과학 계산, 생명 정보학, 분자 동역학, 이미지 처리, 컴퓨터 비전 등 다양한 분야에서 활용되며, 하드웨어 발전과 소프트웨어 개발을 통해 성능과 활용성을 지속적으로 향상시키고 있다.

GPGPU

GPGPU 개요

이미지 준비중입니다.

GPGPU 아키텍처

유형	이종 컴퓨팅
응용 분야	기계 학습 딥 러닝 과학 컴퓨팅 디지털 신호 처리 이미지 처리 비디오 처리 물리 시뮬레이션 금융 모델링

기술적 세부 사항

아키텍처	SIMT (단일 명령어, 다중 스레드)
프로그래밍 모델	CUDA OpenCL DirectCompute SYCL HIP (이종 컴퓨팅을 위한 휴대용 인터페이스)
하드웨어 공급업체	NVIDIA AMD 인텔 ARM (기업)

장점 및 단점

장점	높은 병렬 처리 성능 CPU에 비해 우수한 성능/전력비
단점	CPU에 비해 높은 대기 시간 특정 유형의 작업에 대한 제한된 프로그래밍 유연성

관련 개념	GPU 가속 컴퓨트 셰이더 CUDA OpenCL 이종 컴퓨팅 고성능 컴퓨팅 병렬 컴퓨팅

초기 사용	컴퓨터 그래픽스
진화	과학 컴퓨팅 및 기계 학습에 대한 채택 증가

메모리 대역폭	GPGPU 성능의 중요한 요소
최적화 기술	커널 융합, 메모리 액세스 최적화

관련 서적	"CUDA by Example: An Introduction to General-Purpose GPU Programming" by Jason Sanders and Edward Kandrot "Programming Massively Parallel Processors: A Hands-on Approach" by David B. Kirk and Wen-mei W. Hwu

2. 역사

GPU는 초기에는 그래픽 처리만을 위해 설계되어 기능이 매우 제한적이었다. 3차원 컴퓨터 그래픽스 가속에만 사용되었으며, 흐름 처리를 이용하는 등 제한적인 경우에만 일반 연산에 활용될 수 있었다. 1987년에는 콘웨이의 게임 오브 라이프가 초기 스트림 프로세서인 블리터를 사용하여 범용 컴퓨팅의 초기 사례 중 하나가 되었다.

2001년경 프로그래밍 가능한 셰이더와 부동 소수점 지원이 등장하면서 GPU를 범용 컴퓨팅에 활용하는 것이 더 실용적이고 대중화되었다. 특히 행렬 및 벡터 연산은 GPU에 쉽게 적용될 수 있었는데, 2003년에는 두 연구 그룹이 독립적으로 GPU 기반 접근 방식이 CPU보다 빠르게 일반 선형 대수 문제를 해결할 수 있음을 발견했다. 초기에는 그래픽 API인 OpenGL 및 DirectX를 통해 계산 문제를 재구성해야 했지만, Sh/RapidMind, Brook, Accelerator와 같은 범용 프로그래밍 언어 및 API가 등장하면서 이러한 번거로움이 사라졌다.

이후 NVIDIA의 CUDA가 등장하여 프로그래머들이 그래픽 개념을 벗어나 고성능 컴퓨팅 개념을 활용할 수 있게 되었다. 또한, 마이크로소프트의 DirectCompute와 애플/크로노스 그룹의 OpenCL과 같은 최신, 하드웨어 공급업체에 독립적인 제품들이 등장하면서 GPGPU 파이프라인은 데이터를 그래픽 형태로 변환하지 않고도 GPU의 속도를 활용할 수 있게 되었다.

"GPGPU"라는 용어는 GPGPU.org의 설립자인 마크 해리스(Mark Harris)가 만들었다. CUDA가 발표되기 전(2007년 이전)의 "고전적인" GPGPU는 그래픽 기본 요소를 재사용하는 방식을 사용했으며, 그 구조는 다음과 같았다.

# 배열을 텍스처로 불러오기
# 사각형 그리기
# 픽셀 셰이더와 텍스처를 사각형에 적용
# 사각형의 픽셀 값을 배열로 읽어 들이기

GPU는 그래픽 처리를 위해 특별히 설계되었기 때문에 스트림 프로세싱에 적합하며, 많은 수의 정점과 조각을 병렬로 처리하는 데 효과적이다. 이상적인 GPGPU 애플리케이션은 대용량 데이터 세트, 높은 병렬 처리, 데이터 요소 간의 최소한의 종속성을 가져야 하며, 높은 산술 강도를 갖는 것이 중요하다.

2.1. 초기 시도와 한계 (1998년 ~ 2006년)

GPGPU^영어의 초기 시도는 1998년으로 거슬러 올라간다. 당시에는 GPU라는 개념이 아직 확립되지 않았고, 프로그래밍 가능한 셰이더도 존재하지 않았다. 이안 벅(Ian Buck)은 SGI O2^영어 R5000과 SGI Indigo2^영어 R4400 Maximum IMPACT의 그래픽 가속기를 이용해 OpenGL의 프레임 버퍼를 활용, 유체 계산을 가속화하는 실험을 진행했다. 이 실험에서는 점화식 계산의 각 단계마다 2장의 프레임 버퍼를 사용했으며, 실제로 몇 배의 속도 향상을 얻을 수 있었다. 당시 SGI의 워크스테이션은 기하 엔진이 별도의 LSI 칩으로 탑재되어 있어, 훗날 GPU의 원형이라 할 수 있는 구성을 갖추고 있었다.

하지만 당시에는 고정 기능 셰이더만 사용할 수 있었기 때문에, 매우 단순한 모델만 계산할 수 있었고 실용적인 수준과는 거리가 멀었다. 유체 계산 가속화는 OpenGL의 2차원 컨볼루션 필터를 점화식 계산의 확산 연산에 적용하는 방식으로 이루어졌는데, 이는 하드웨어에서 병렬로 처리되었다. 그러나 물리 모델을 2차원 컨볼루션 필터로 표현하여 표준 기능에 전달하는 것 외에는 할 수 없었기 때문에, 오늘날의 GPGPU와 비교하면 자유도가 매우 낮았다. 또한, RGB 각 색상 8비트를 수치에 할당했기 때문에 계산 정밀도가 8비트를 초과하면 RGB 색상 간 자리 올림 등을 구현해야 했고, 이는 큰 오버헤드를 발생시켜 계산 속도를 저하시키는 문제점이 있었다. 이안 벅 자신도 이러한 제약을 완화하기 위해서는 그래픽 하드웨어의 발전이 필요하다고 언급했다.

1999년, GeForce 256 출시와 함께 지오메트리 엔진이 그래픽 가속기에 통합되면서 "GPU"라는 제품 카테고리가 등장했다. 2000년 11월 9일에는 어셈블리 언어로 128개 명령만 기술 가능한 원시적인 프로그래머블 셰이더(셰이더 모델 1.x)가 등장했다.

2002년에는 GPU의 고정 기능 셰이더가 프로그래머블 셰이더로 대체되면서 큰 발전이 이루어졌다. 이안 벅은 GPU의 발전 속도가 무어의 법칙을 넘어선다고 보고, 스트림 프로세서로서 GPU의 미래를 예측하며 GPU를 이용한 레이 트레이싱 계산 가속화에 대한 논문을 발표했다.

2002년 12월 20일, 셰이더 모델 2.0이 등장하면서 GPU의 프로그래밍 가능한 셰이더에서 더 긴 명령 길이와 부동소수점 연산을 처리할 수 있게 되었다. 이를 계기로 2003년경부터 GPGPU가 본격적으로 시도되기 시작했으며, 2004년 8월에는 세계 최초의 GPGPU 학회인 "GP2"(Workshop on General Purpose Computing on Graphics Processors)가 개최되었다.

하지만 당시 GPU는 이미지 처리에 특화되어 제작되었기 때문에 연산 정밀도가 부족하고 가상 메모리 처리가 불가능하다는 등의 제약이 있었다. 또한, GPU 제조사들은 수율 향상을 위해 화면 표시에 문제가 없으면 계산 오류가 있어도 GPU를 출하했기 때문에, 계산 오류를 일으키는 GPU를 검품하여 제거해야 하는 문제도 있었다.

2.2. CUDA 및 OpenCL 등장과 GPGPU 확산 (2007년 이후)

2007년 NVIDIA는 CUDA를 발표하여 그래픽스 API를 거치지 않고 C 언어와 유사한 방식으로 GPGPU 프로그래밍을 가능하게 했다. 2008년경부터 GPGPU가 보급되기 시작했으며, CUDA가 유명해지면서 NVIDIA는 GPGPU 분야의 선두 주자가 되었다.

같은 해 크로노스 그룹은 여러 플랫폼에서 사용 가능한 개방형 표준인 OpenCL을 발표했다. CUDA와 OpenCL의 등장은 GPGPU 프로그래밍의 진입 장벽을 낮추고, 빅데이터, 가상 화폐, 인공 지능 붐을 뒷받침하는 존재가 되었으며, 2020년대에는 붐이 지나치게 과열되어 GPU 제품의 공급이 부족한 사태까지 발생하고 있다.

2008년 가을부터 S3는 GPU를 이용한 GPGPU용 사진 수정소프트웨어 "S3FotoPro"를 발표했으며, 동영상 편집 가공 소프트웨어에서는 동영상 인코딩 소프트웨어의 대표 격인 TMPGEnc가 CUDA를 지원하기 시작했고, 사이버링크의 PowerDirector 7은 CUDA와 ATI Stream을 지원하게 되었다.

3. GPGPU 프로그래밍 개념

GPU는 흐름 처리에 최적화되어 있어, 대량의 데이터를 병렬로 처리하는 데 강점을 보인다. GPGPU 프로그래밍을 위해서는 다음과 같은 주요 개념을 이해해야 한다.

* 흐름(Stream): 유사한 계산을 필요로 하는 데이터 요소(레코드)들의 집합이다. GPU에서는 꼭짓점과 프래그먼트가 흐름의 요소가 된다. 흐름은 데이터 병렬성을 제공한다.
* 커널(Kernel): 흐름 속의 각 요소에 적용되는 함수이다. GPU에서는 셰이더가 커널 역할을 한다.
* 산술 치열도(Arithmetic Intensity): 메모리 전송량 대비 연산량의 비율이다. GPGPU 응용 프로그램은 높은 산술 치열도를 가져야 메모리 접근 지연에 의한 성능 저하를 막을 수 있다.

이상적인 GPGPU 응용 프로그램은 데이터 집합이 크고, 병렬성이 높으며, 데이터 요소 간의 의존성이 최소화된 특징을 갖는다.

GPU는 원래 그래픽 처리를 위해 설계되었기 때문에, 일반적인 연산에 활용하기 위해서는 몇 가지 제약이 따른다. 하지만, 그래픽 카드 제조사와 연구자들의 노력으로 GPU의 활용 영역은 점차 넓어지고 있다.

3.1. 계산 자원

GPU는 다음과 같은 다양한 계산 자원을 가지고 있다:

* 프로그램 가능한 프로세서 – 버텍스(꼭짓점), 프리미티브(3차원 그래픽스의 기본 요소, 점, 선, 면, 구, 상자), 프래그먼트 파이프라인으로 프로그래머는 데이터의 흐름에 커널을 실행할 수 있다.
* 래스터라이저 – 프래그먼트를 생성하고 텍스처 좌표와 색상 등 정점별 상수를 보간한다.
* 텍스처 유닛 – 읽기 전용 메모리 인터페이스
* 프레임 버퍼 – 쓰기 전용 메모리 인터페이스

프로그래머는 프레임 버퍼 대신 쓰기 전용 텍스처를 출력으로 대체할 수 있다. 이는 텍스처 렌더링(RTT), 렌더-백버퍼-텍스처 복사(RTBCTT) 또는 스트림 아웃을 통해 수행된다.

3.2. 텍스처와 커널

GPGPU에서 흐름(stream)은 주로 2차원 격자 형태로 표현되는데, 이는 GPU에 내장된 렌더링 모델과 잘 맞기 때문이다. 행렬 연산, 이미지 처리, 물리 기반 시뮬레이션 등 많은 계산 작업이 격자 형태로 나타낼 수 있다. 텍스처는 메모리 역할을 하며, 텍스처 룩업(lookup)은 메모리 읽기로 사용된다. 이 덕분에 특정 연산은 GPU가 자동 수행한다.

커널은 반복문의 본체라고 생각할 수 있다. 예를 들어, CPU로 격자 행렬을 다루는 코드는 다음과 유사하다.

```c
// 입력 및 출력 격자는 10000 x 10000 크기 (1억 개 요소)

void transform_10k_by_10k_grid(float in[10000][10000], float out[10000][10000])
{
for (int x = 0; x < 10000; x++) {
for (int y = 0; y < 10000; y++) {
// 다음 줄은 1억 번 실행됨
out[x][y] = do_some_hard_work(in[x][y]);
}
}
}
```

GPU에서는 프로그래머가 반복문의 본체(커널)와 반복문이 기하학적으로 처리할 데이터를 지정한다.

4. GPU vs. CPU

GPU는 데이터 병렬 처리에 특화되어 CPU보다 높은 연산 성능을 제공하지만, 몇 가지 제약 조건이 있다. GPU는 3차원 컴퓨터 그래픽스 가속에 목적을 두고 설계되었기 때문에, 흐름 처리를 이용해 풀 수 있는 문제에 효과적이다.

GPU는 메모리에 순차적으로 접근하고 조건 분기가 없는 계산에 강하며, 대표적인 예로 행렬 계산이 있다. 반면, 이진 탐색처럼 조건 분기가 많고 메모리에 무작위로 접근하는 연산이나, 포인터를 따라가며 연결 리스트나 트리 구조를 처리하는 작업, 그리고 희소 행렬은 GPU에 취약하다. 도쿄 대학 정보기반센터에 따르면 희소 행렬 처리 효율은 최대 100배까지 느려질 수 있다. 그래프 계산에서 최단 경로 문제를 예로 들면, 완전 그래프와 같이 밀집된 그래프는 빠르게 계산할 수 있지만, 정점에서 몇 개의 변만 나오는 희소 그래프는 느리게 처리된다.

GPGPU는 2001년경 프로그래밍 가능한 셰이더와 그래픽 프로세서의 부동 소수점 지원이 등장하면서 더욱 실용화되었다. 특히, 행렬 및 벡터 연산은 GPU에 쉽게 변환될 수 있었다. 2003년에는 두 연구 그룹이 GPU 기반 접근 방식이 CPU보다 빠른 선형 대수 문제 해결에 유용함을 발견했다. 초기에는 그래픽 API인 OpenGL 및 DirectX를 통해 그래픽 기본 요소 측면에서 계산 문제를 재구성해야 했지만, CUDA, DirectCompute, OpenCL 등의 등장으로 이러한 번거로움이 사라졌다.

GPGPU는 대규모 데이터 세트, 2차원/3차원 이미지 처리, 과학 컴퓨팅, 게놈 매핑, 생체 분자 분석, 단백질 연구, 유기 화학 등 다양한 분야에서 활용된다. 게놈 분석을 위한 NVIDIA 소프트웨어 제품군이 그 예시이다.

GPGPU는 하드웨어 개념이 아닌 알고리즘의 유형이지만, 특수 장비 설계는 GPGPU 파이프라인의 효율성을 더욱 향상시킬 수 있다. 예를 들어, 랙 컴퓨팅과 같이 대량 병렬화된 작업은 특수 설정을 통해 더욱 효율적으로 처리할 수 있다.

4.1. 조건 분기

GPU는 SIMD 방식으로 작동하여 한 번의 연산으로 여러 데이터에 대해 같은 연산을 수행한다. 이러한 방식은 3차원 연산 및 멀티미디어 처리에 효과적이지만, 조건 분기가 포함되면 오버헤드가 증가하여 효율이 급격히 떨어진다. 오늘날의 CPU는 추측 실행 등의 기능을 통해 이러한 문제를 최소화하지만, GPU는 이러한 기능을 갖추고 있지 않다.

최근 GPU는 분기를 허용하지만, 일반적으로 성능 저하가 발생한다. GPU는 메모리에 순차적으로 접근하며, 조건 분기가 없는 계산(연산 밀도가 높은 처리)에 강하다. 예를 들어 행렬 계산은 GPU에 적합하지만, 이진 탐색과 같이 조건 분기가 많고 메모리에 무작위로 접근하는 경우는 효율이 떨어진다.

PC용 GPU에서는 셰이더 프로세서마다 분기하기 위한 프로그램 카운터를 가지고 있지 않기 때문에, 조건 분기 시 마스크 레지스터를 사용하여 실제로 명령을 실행할지 여부를 나누는 기법이 사용된다.

일반적인 애플리케이션에서는 조건 분기가 자주 발생하므로, 이러한 제약은 GPU가 오피스 스위트와 같은 애플리케이션 실행에 적합하지 않게 만든다. 따라서 GPGPU 발전에 있어 조건 분기 효율을 높이는 것은 중요한 과제이다.

4.2. 부동 소수점 연산

GPU는 원래 단정밀도 부동 소수점 연산에 강점을 가지도록 설계되었다. 특히 실시간 3D 그래픽스 처리와 같은 이미지 연산에서는 정수 연산이나 단정밀도 부동 소수점 연산으로 충분하기 때문이다. 따라서 부동 소수점 연산기는 가수부가 24비트 정도로 제한되어, 단정밀도 연산기로 배정밀도 부동 소수점 연산을 수행하려면 여러 번의 연산이 필요하여 성능 저하를 초래했다.

하지만, 과학 기술 계산 분야에서는 배정밀도 부동 소수점 연산(64비트)이 필수적이다. 이러한 요구에 따라, HPC(고성능 컴퓨팅)용으로 설계된 GPU 제품들은 배정밀도 전용 연산기를 탑재하거나 활성화하여 배정밀도 연산 성능을 향상시켰다.

AMD는 2007년에 R6xx 코어를 기반으로 한 "FireStream 9170"을 출시하여 업계 최초로 배정밀도 부동 소수점 연산을 지원했다. 그러나 배정밀도 이론 연산 성능은 단정밀도의 1/5 수준이었다. 2014년에 출시된 AMD FirePro S9100/S9150에서는 배정밀도 연산 성능이 강화되어, 배정밀도 이론 연산 성능이 단정밀도의 1/2로 향상되었다.

NVIDIA는 2008년에 출시된 NVIDIA Tesla C1060에서 배정밀도를 지원했지만, 단정밀도 933GFLOPS에 비해 배정밀도는 78GFLOPS로, 배정밀도 연산 성능이 매우 낮았다. 2010년 Fermi 세대의 Tesla 20 시리즈에서는 배정밀도 이론 연산 성능이 단정밀도의 1/2로 향상되었지만, 2012년 Kepler 세대의 Tesla K20 시리즈 등에서는 단정밀도의 1/3 수준이었다.

2020년 현재에도 HPC용을 제외한 일반 GPU에서는 저전력 성능이나 게이밍 성능을 우선시하여 배정밀도 연산 성능은 제한적으로 제공되는 경우가 많다. 또한, 배정밀도 전용 연산 유닛은 단정밀도 연산을 수행할 수 없기 때문에, 칩 설계 단계에서 단정밀도와 배정밀도 중 어느 쪽을 우선할 것인지에 대한 트레이드오프가 발생한다.

딥 러닝 계산에서는 높은 계산 정밀도가 필요하지 않기 때문에, 반정밀도(16비트) 연산을 빠르게 수행할 수 있도록 하드웨어적인 지원이 이루어지고 있다. 또한, 지수부를 늘린 bfloat16 형식이 고안되어 일부 GPU에서 지원되고 있다.

DirectX 11을 지원하는 AMD GPU와 Fermi 세대 이후의 NVIDIA GPU는 부동 소수점 연산 정밀도가 IEEE 754 규격을 준수한다. 두 회사 GPU 모두 융합 곱셈-덧셈 연산 (FMA) 명령을 지원하지만, CPU에서 FMA를 사용하지 않고 같은 처리를 실행했을 때와 GPU의 연산 결과가 다를 수 있다.

4.3. 메모리

GPU는 고속의 그래픽스 메모리(VRAM)를 사용하지만, CPU와의 데이터 전송은 병목 현상을 일으킬 수 있다. 일반적으로 GPU와 비디오 카드는 접근 속도가 훨씬 빠른 더 적은 양의 더 비싼 메모리를 포함한다. 분석할 데이터 세트의 일부를 텍스처 또는 기타 쉽게 읽을 수 있는 GPU 형식으로 해당 GPU 메모리로 전송하면 속도가 증가한다. GPGPU 설계의 특징은 정보를 GPU에서 CPU로 양방향 통신으로 전송할 수 있다는 것이다. 일반적으로 양방향 데이터 처리량은 이상적으로 높으며 특정 고사용 알고리즘의 속도에 승수 효과를 가져온다.

GPU에 의한 VRAM 접근은, 복수의 프로세서군에 의해 병렬적으로 발생하기 때문에, 연속된 메모리 영역에 대한 코어레스 액세스(coalesce access, ≒시퀀셜 액세스)를 행함으로써 효율화, 고속화할 수 있다. NVIDIA GPU에서는 32개의 하드웨어 스레드를 묶는 배치 단위를 Warp라고 부르고, AMD GPU에서는 64개의 하드웨어 스레드를 묶는 배치 단위를 Wavefront라고 부르지만, 이들 유닛 내에서는 프로세서가 완전히 동기화하여 동작하기 때문에, 배치 단위마다 묶어서 연속 영역에 접근(코어레스 액세스)함으로써 효율이 좋아진다. 반대로 말하면, 배치 단위 내의 스레드가 각각 멀리 떨어진 제각각의 주소에 접근하는 비코어레스 액세스(≒랜덤 액세스)는 효율이 나빠진다.

공유 메모리(shared memory)는 GPU 내 프로세서 그룹 간의 고속 데이터 교환을 가능하게 하지만, 용량이 제한적이다. 공유 메모리는 소용량이지만 고속이며, 사용자 프로그래머가 명시적으로 관리할 수 있는 캐시 메모리(≒L1 캐시)의 역할을 하며, 복수의 코어에서 데이터를 공유, 교환하는 목적으로 사용할 수 있다.

예를 들어 Fermi/Kepler 마이크로 아키텍처에서는, 1SMX당 최대 48KB의 공유 메모리를 사용할 수 있지만, 외부에 있는 DRAM에 캐시 없이 접근하는 경우에 비해, 공유 메모리의 레이턴시는 (스레드 간의 뱅크 컨플릭트가 없는 한) 100배 작아진다. 따라서, 복수의 스레드에서 참조되는 데이터의 임시적인 쓰기 장소로서 공유 메모리를 활용함으로써, 고속 병렬 알고리즘이나, GPU 프로그래밍에서 고속화에 필요한 코어레스 액세스(≒시퀀셜 액세스)를 실현할 수 있다고 NVIDIA는 설명하고 있다. 그러나, 최대 48KB밖에 없는 공유 메모리라는 하드웨어 제약이 알고리즘의 폭에 제한을 걸기 때문에, 공유 메모리의 존재는 GPU 프로그래밍의 어려움으로 이어진다. 또한, 공유 메모리에 읽고 쓸 때, 스레드 간의 동기를 취하기 위한 처리도 프로그래머가 명시적으로 기술할 필요가 있다.

각 API에서는, CUDA는 공유 메모리, OpenCL은 로컬 메모리, DirectCompute는 그룹 공유 메모리, C++ AMP는 타일 정적 메모리라는 명칭으로, 각각 동등한 기능을 갖추고 있다.

컴퓨터의 마더보드와 dGPU를 연결하는 PCI Express 규격은 CPU-시스템 메모리 간이나 GPU-비디오 메모리 간에 비해 대역폭이 훨씬 좁아, GPGPU를 쉽게 도입하려 하면 데이터 전송이 병목 현상을 일으켜 오히려 성능 저하를 초래할 가능성이 있다. 이 점에 관해서는, 엔비디아(NVIDIA)가 개발한 독자적인 인터커넥트 기술인 NVLink 등의 해결책이 모색되고 있다.

5. GPGPU 활용 분야

GPGPU는 3차원 컴퓨터 그래픽스 처리 외에도 다양한 분야에서 활용되고 있다. GPU는 대량의 데이터를 병렬로 처리하는 데 강점을 지니고 있어, 복잡한 계산을 빠르게 수행해야 하는 분야에서 널리 사용된다. GPU가 범용 컴퓨팅에 사용되는 주요 분야는 다음과 같다.

* 자동 병렬화
* 물리 기반 시뮬레이션 및 물리 엔진: 콘웨이의 생명 게임, 천체 시뮬레이션, 비압축성 흐름 계산
* 통계 물리학: 이징 모형 계산
* 격자 게이지 이론
* 영상 분할 (2D 및 3D)
* 레벨 집합 방법
* CT 재구성
* 고속 푸리에 변환
* 머신 러닝 및 데이터 마이닝: GPU 학습 (예: BIDMach 소프트웨어 사용)
* k-최근접 이웃 알고리즘
* 퍼지 논리
* 톤 매핑
* 오디오 신호 처리: 오디오 및 음향 효과 처리, 디지털 신호 처리(DSP)
* 아날로그 신호 처리
* 음성 처리
* 디지털 이미지 처리
* 비디오 처리: 하드웨어 가속 비디오 디코딩 및 후처리, 하드웨어 가속 비디오 인코딩 및 전처리
* 전역 조명: 광선 추적, 광자 매핑, 레디오시티, 표면 아래 산란
* 기하학적 계산: 구성적 솔리드 형상, 거리 필드, 충돌 감지, 투명도 계산, 그림자 생성
* 과학 계산
* 빛 전파 몬테카를로 시뮬레이션
* 일기 예보
* 기후 연구
* GPU의 분자 모델링
* 양자 역학 물리학
* 천체 물리학
* 전산 금융
* 의료 영상
* 임상 의사 결정 지원 시스템(CDSS)
* 컴퓨터 비전
* 디지털 신호 처리 / 신호 처리
* 제어 공학
* 운용 과학: 자원 제약 프로젝트 일정 계획 문제, 간호사 스케줄링 문제 해결 알고리즘
* 신경망
* 데이터베이스 작업
* 전산 유체 역학: 격자 볼츠만 방법 사용
* 암호화 및 암호 해독: MD6, 고급 암호화 표준(AES), 데이터 암호화 표준(DES), RSA, 타원 곡선 암호(ECC) 구현, 암호 해독, 암호화폐 거래 처리 (비트코인 채굴)
* 전자 설계 자동화
* 안티바이러스 소프트웨어
* 침입 탐지
* 분산 컴퓨팅 프로젝트: SETI@home, Einstein@home 컴퓨팅 성능 향상

5.1. 생명 정보학

GPGPU를 활용한 생물정보학은 DNA 염기 서열 분석, 단백질 데이터베이스 검색, 모티프 발견 등 다양한 분야에서 계산 속도를 크게 향상시킨다.

👆

좌우로 밀어서 보기

GPGPU를 활용한 생물정보학 응용 프로그램
응용 분야	설명	지원 기능	예상 속도 향상†	GPU‡	멀티-GPU 지원	출시 상태
BarraCUDA	DNA, 후성 유전학을 포함한 염기 서열 매핑 소프트웨어	짧은 염기 서열 읽기 정렬	6–10배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 0.7.107f
CUDASW++	GPU에서 Smith-Waterman 단백질 데이터베이스 검색을 위한 오픈 소스 소프트웨어	Smith-Waterman 데이터베이스의 병렬 검색	10–50배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 2.0.8
CUSHAW	병렬화된 짧은 리드 정렬기	병렬, 정확한 긴 리드 정렬 대규모 게놈에 대한 간극 정렬	10배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 1.0.40
GPU-BLAST	빠른 k-튜플 휴리스틱을 사용한 로컬 검색	blastp에 따른 단백질 정렬, 다중 CPU 스레드	3–4배	T 2075, 2090, K10, K20, K20X		현재 사용 가능, 버전 2.2.26
GPU-HMMER	프로파일 숨겨진 마르코프 모델을 사용한 병렬화된 로컬 및 글로벌 검색	숨겨진 마르코프 모델의 병렬 로컬 및 글로벌 검색	60–100배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 2.3.2
mCUDA-MEME	MEME를 기반으로 한 초고속 확장 가능한 모티프 발견 알고리즘	MEME를 기반으로 한 확장 가능한 모티프 발견 알고리즘	4–10배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 3.0.12
SeqNFind	GPU 가속 시퀀스 분석 도구 세트	참조 조립, blast, Smith–Waterman, hmm, de novo 조립	400배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능
UGENE	SSE/CUDA용 오픈 소스 Smith–Waterman, 접미사 배열 기반 반복 찾기 및 도트플롯	빠른 짧은 리드 정렬	6–8배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 1.11
WideLM	고정된 설계 및 응답에 여러 선형 모델을 적합	여러 유사한 모양의 모델에 대한 병렬 선형 회귀	150배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 0.1-1

5.2. 분자 동역학

GPGPU는 단백질, DNA, 리간드 등의 분자 동역학 시뮬레이션에 활용되어 연구 개발 시간을 단축시킨다. 다음은 GPGPU를 활용한 분자 모델링 프로그램들이다.

👆

좌우로 밀어서 보기

응용 프로그램	설명	지원 기능	예상 속도 향상†	GPU‡	멀티 GPU 지원	출시 상태
전복	단백질, DNA 및 리간드의 시뮬레이션을 위한 생체 고분자의 분자 역학 모델	명시적 및 암시적 용매, 하이브리드 몬테 카를로	4–120배	T 2075, 2090, K10, K20, K20X		현재 사용 가능, 버전 1.8.88
ACEMD	분자 역학력장, 암시적 및 명시적 용매의 GPU 시뮬레이션	GPU에서 사용하도록 작성됨	GPU 버전만 하루 160 ns	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능
AMBER	생체 분자에 대한 분자 역학을 시뮬레이션하는 프로그램 모음	PMEMD: 명시적 및 암시적 용매	JAC NVE 하루 89.44 ns	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 12 + 버그 수정 9
DL-POLY	분산 메모리 병렬 컴퓨터에서 거대 분자, 고분자, 이온 시스템 등을 시뮬레이션	2체력, 링크-셀 쌍, Ewald SPME 힘, Shake VV	4배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 4.0 소스 전용
CHARMM	생체 분자에 대한 분자 역학을 시뮬레이션하는 MD 패키지.	OpenMM을 통한 암시적(5배), 명시적(2배) 용매	TBD	T 2075, 2090, K10, K20, K20X	예	2012년 4분기 개발 중
GROMACS	복잡한 결합 상호 작용을 가진 생화학 분자를 시뮬레이션	암시적(5배), 명시적(2배) 용매	DHFR 하루 165 ns	T 2075, 2090, K10, K20, K20X		현재 사용 가능, 2012년 4분기 버전 4.6
HOOMD-Blue	GPU를 위해 처음부터 작성된 입자 역학 패키지	GPU용으로 작성됨	2배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능
LAMMPS	고전 분자 역학 패키지	Lennard-Jones, Morse, Buckingham, CHARMM, 표로 작성된, 코스 입자 SDK, 이방성 Gay-Bern, RE-제곱, "하이브리드" 조합	3–18배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능
NAMD	대규모 분자 시스템의 고성능 시뮬레이션을 위해 설계됨	1억 개 원자 가능	585x 2050s STMV 하루 6.44 ns	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 2.9
OpenMM	GPU를 사용한 HPC를 위한 분자 역학을 위한 라이브러리 및 응용 프로그램	암시적 및 명시적 용매, 사용자 지정 힘	암시적: 하루 127–213 ns; 명시적: DHFR 하루 18–55 ns	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 4.1.1

† 예상 속도 향상은 시스템 구성에 따라 크게 달라진다. GPU 성능은 다중 코어 x86 CPU 소켓과 비교된다. GPU 성능은 GPU 지원 기능에 대해 벤치마킹되었으며 커널 간 성능 비교일 수 있다. 사용된 구성에 대한 자세한 내용은 응용 프로그램 웹사이트를 참조하라. Nvidia 내부 테스트 또는 ISV의 설명서에 따른 속도 향상이다.

‡ Q=쿼드로 GPU, T=테슬라 GPU. 이 응용 프로그램에 권장되는 Nvidia GPU이다. 인증 정보를 얻으려면 개발자 또는 ISV에 문의하라.

5.3. 기타 분야

GPGPU는 다음과 같은 다양한 분야에서 활용되고 있다.

* 전산 물리학: 물리 기반 시뮬레이션 및 물리 엔진에 활용된다. 콘웨이의 생명 게임, 천 시뮬레이션, 비압축성 흐름 계산 등에 쓰인다.
* 통계 물리학: 이징 모형 계산에 활용된다.
* 의료 영상: CT 재구성에 사용된다.
* 컴퓨터 비전
* 디지털 신호 처리 / 신호 처리: 오디오 신호 처리, 음향 효과 처리, 디지털 신호 처리(DSP)에 GPU를 사용하며, 아날로그 신호 처리 및 음성 처리에도 활용된다.
* 제어 공학
* 운용 과학: 자원 제약 프로젝트 일정 계획 문제, 간호사 스케줄링 문제 등을 해결하는 알고리즘 개발에 사용된다.
* 신경망
* 데이터베이스 작업
* 전산 유체 역학: 특히 격자 볼츠만 방법을 사용한다.
* 암호화 및 암호 해독: MD6, 고급 암호화 표준(AES), 데이터 암호화 표준(DES), RSA, 타원 곡선 암호(ECC) 등의 구현과 암호 해독, 암호화폐 거래 처리 ("채굴") (비트코인 채굴)에 사용된다.
* 전자 설계 자동화
* 안티바이러스 소프트웨어
* 침입 탐지
* 분산 컴퓨팅 프로젝트: SETI@home, Einstein@home과 같은 프로젝트의 컴퓨팅 성능을 높인다.

GPGPU를 활용한 생물정보학 분야는 다음과 같다.

👆

좌우로 밀어서 보기

응용 분야	설명	예상 속도 향상†	GPU‡	멀티-GPU 지원	출시 상태
BarraCUDA	DNA, 후성 유전학을 포함한 염기 서열 매핑 소프트웨어	6–10배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 0.7.107f
CUDASW++	GPU에서 Smith-Waterman 단백질 데이터베이스 검색을 위한 오픈 소스 소프트웨어	10–50배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 2.0.8
CUSHAW	병렬화된 짧은 리드 정렬기	10배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 1.0.40
GPU-BLAST	빠른 k-튜플 휴리스틱을 사용한 로컬 검색	3–4배	T 2075, 2090, K10, K20, K20X		현재 사용 가능, 버전 2.2.26
GPU-HMMER	프로파일 숨겨진 마르코프 모델을 사용한 병렬화된 로컬 및 글로벌 검색	60–100배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 2.3.2
mCUDA-MEME	MEME를 기반으로 한 초고속 확장 가능한 모티프 발견 알고리즘	4–10배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 3.0.12
SeqNFind	GPU 가속 시퀀스 분석 도구 세트	400배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능
UGENE	SSE/CUDA용 오픈 소스 Smith–Waterman, 접미사 배열 기반 반복 찾기 및 도트플롯	6–8배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 1.11
WideLM	고정된 설계 및 응답에 여러 선형 모델을 적합	150배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 0.1-1

GPGPU를 활용한 분자 모델링 분야는 다음과 같다.

👆

좌우로 밀어서 보기

응용 프로그램	설명	예상 속도 향상†	GPU‡	멀티 GPU 지원	출시 상태
전복	단백질, DNA 및 리간드의 시뮬레이션을 위한 생체 고분자의 분자 역학 모델	4–120배	T 2075, 2090, K10, K20, K20X		현재 사용 가능, 버전 1.8.88
ACEMD	분자 역학력장, 암시적 및 명시적 용매의 GPU 시뮬레이션	GPU 버전만 하루 160 ns	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능
AMBER	생체 분자에 대한 분자 역학을 시뮬레이션하는 프로그램 모음	JAC NVE 하루 89.44 ns	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 12 + 버그 수정 9
DL-POLY	분산 메모리 병렬 컴퓨터에서 거대 분자, 고분자, 이온 시스템 등을 시뮬레이션	4배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 4.0 소스 전용
CHARMM	생체 분자에 대한 분자 역학을 시뮬레이션하는 MD 패키지.	TBD	T 2075, 2090, K10, K20, K20X	예	2012년 4분기 개발 중
GROMACS	복잡한 결합 상호 작용을 가진 생화학 분자를 시뮬레이션	DHFR 하루 165 ns	T 2075, 2090, K10, K20, K20X		현재 사용 가능, 2012년 4분기 버전 4.6
HOOMD-Blue	GPU를 위해 처음부터 작성된 입자 역학 패키지	2배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능
LAMMPS	고전 분자 역학 패키지	3–18배	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능
NAMD	대규모 분자 시스템의 고성능 시뮬레이션을 위해 설계됨	585x 2050s STMV 하루 6.44 ns	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 2.9
OpenMM	GPU를 사용한 HPC를 위한 분자 역학을 위한 라이브러리 및 응용 프로그램	암시적: 하루 127–213 ns; 명시적: DHFR 하루 18–55 ns	T 2075, 2090, K10, K20, K20X	예	현재 사용 가능, 버전 4.1.1

6. 과제와 전망

GPGPU 프로그래밍은 하드웨어 및 API에 대한 지식이 필요하고, 개발 및 튜닝이 어렵다는 과제가 있다. CPU와 GPU 간 데이터 전송 병목 현상, 배정밀도 연산 성능, 조건 분기 효율 등도 개선해야 할 과제이다.

2015년 현재, GPGPU 개발 환경 및 API로는 CUDA, OpenCL, DirectCompute가 대표적이다. GPGPU 초기 개발 환경에 비하면 많이 개선되었지만, 여전히 하드웨어를 고려한 GPGPU 특유의 프로그래밍 지식이 필요하다. 또한, 규격에 따른 표준화 및 추상화에도 불구하고, 장치와의 통신을 위한 로우 레벨 API를 다루어야 하므로, 일반적인 C/C++나 Fortran을 사용한 소프트웨어 개발과는 다른 어려움이 있어 진입 장벽이 높다. 특히 OpenCL과 DirectCompute는 하드웨어 공통 접근 API를 규정할 뿐, CUDA보다 추상화 수준이 낮다. 이러한 문제를 해결하기 위해, 액셀러레이터의 존재를 추상화하고, 기존 CPU 기반 병렬 프로그래밍용 공통 규격인 OpenMP와 유사한 고수준 프로그래밍 환경을 제공하는 OpenACC나 C++ AMP와 같은 규격도 점차 정비되고 있다.

CPU 프로그램은 임베디드 환경을 제외하면 라이브러리를 포함한 고수준 개발 환경이 갖춰진 경우가 많다. C++, Java, C# 등 대표적인 고급 언어에서는, 단순한 연속 메모리 배열뿐 아니라 링크드 리스트, 이진 탐색 트리, 해시 테이블 같은 기본 데이터 구조를 표준 라이브러리에서 제공한다. 그러나 GPU 프로그래밍에서는 기본적으로 배열 구조만 제공된다. 포톤 매핑 개발자 Wann Jensen 박사는 복잡한 데이터 구조를 GPU에서 다루는 것이 CPU보다 훨씬 어렵다고 평가했다.

GPU 연산 결과를 CPU에서 사용하거나, 그 반대의 경우, 기존 아키텍처에서는 GPU 메모리와 CPU 메모리 간 데이터 전송이 필요하다. 이러한 CPU-GPU 간 메모리 전송 시간과 프로그래밍 부담은 성능 병목 현상과 소프트웨어 개발의 어려움을 야기한다. 이는 물리적 메모리가 분리된 dGPU와 CPU 구성뿐 아니라, 물리 메모리를 공유하는 온보드 그래픽스나 CPU 내장 GPU에서도 마찬가지이다. CUDA와 OpenCL은 소프트웨어(드라이버) 수준에서 이러한 전송 부담을 줄이기 위해 통합 메모리(unified memory) 기능이나 공유 가상 메모리(shared virtual memory) 기능을 제공하지만, 메모리 공간 주소 지정을 가상화하여 전송을 자동화할 뿐, 프로그래머가 직접 전송을 기술하여 튜닝하는 경우에 비해 성능 문제가 있을 수 있다.

컴퓨터 마더보드와 dGPU를 연결하는 PCI Express 규격은 CPU-시스템 메모리 간 또는 GPU-비디오 메모리 간 대역폭보다 훨씬 좁아, GPGPU 도입 시 데이터 전송 병목 현상으로 성능 저하를 초래할 수 있다.

GPGPU 프로그램 이식성과 관련하여, CUDA는 NVIDIA 하드웨어 전용이며, DirectCompute (DirectX)는 Microsoft 플랫폼 (Microsoft Windows, Xbox One 등) 전용이라는 제약이 있다. 반면, OpenCL은 GPU뿐 아니라 지원하는 모든 하드웨어와 플랫폼에서 사용할 수 있는 높은 이식성을 가지지만, 성능 이식성은 보장되지 않아 경우에 따라 장치나 칩별 코드 튜닝이 필요할 수 있다.

6.1. 한국의 GPGPU 현황 및 정책 방향

주어진 원문 소스에는 '한국의 GPGPU 현황 및 정책 방향' 섹션에 부합하는 내용이 없으므로, 해당 섹션에 대한 내용을 작성할 수 없다. (이 부분은 이전 답변과 동일하며, 변경할 내용이 없습니다.)

6.2. 기술 발전 방향

하드웨어 측면에서는 GPU가 배정밀도(64비트) 부동소수점 연산을 더 잘 지원하도록 발전할 것으로 예상된다. 초기 GPU는 배정밀도 연산을 지원하지 않거나 속도가 매우 느렸지만, 과학적 응용 분야에서 정확도 문제가 중요해짐에 따라 개선이 이루어지고 있다. 또한 메모리 대역폭을 늘리고, CPU와 GPU가 함께 작동하는 이기종 컴퓨팅(Heterogeneous Computing)을 지원하는 방향으로 발전할 것이다.

소프트웨어 측면에서는 OpenACC, C++ AMP와 같이 더 쉬운 프로그래밍 환경을 제공하고, 라이브러리와 프레임워크를 확충하여 개발자들이 GPGPU를 더 쉽게 활용할 수 있도록 지원할 것이다. 또한, 딥 러닝 분야의 발전에 따라 반정밀도(16비트) 및 그 이하의 저정밀도 연산, 텐서 처리 장치(TPU) 등 새로운 하드웨어 및 소프트웨어 기술이 등장하고 있다.

2000년대 중반까지 GPGPU 기술은 주로 학술 및 연구 목적으로 활용되었고, 일반 사용자가 활용하기에는 어려움이 있었다. 셰이딩 언어를 직접 사용하거나 독자적인 프로그래밍 언어를 사용해야 했기 때문에 진입 장벽이 높았다.

그러나 2008년 이후, S3의 "S3FotoPro" (GPU를 이용한 GPGPU용 사진 편집소프트웨어), TMPGEnc (CUDA 지원), 사이버링크의 PowerDirector 7 (CUDA 및 ATI Stream 지원) 등 일반 사용자용 소프트웨어가 등장하기 시작했다.

2009년에는 Super LoiLoScope (Pixel Shader 2.0 활용), 사이버링크의 MediaShow Espresso (CUDA와 ATI Stream 지원) 등이 출시되었다.

미국 어도비는 Creative Suite 4 (CS4)에서 CUDA 기반 GPU 가속을 지원했고, Creative Suite 5 (CS5)에서는 GPGPU를 공식적으로 지원했다. CS5는 OpenCL 기반으로 개발되어 GPGPU를 이용한 연산을 할 수 있다. After Effects CC에서는 레이 트레이싱 엔진에 OptiX^영어를 채용하고 있다.

오픈 소스 3DCG 제작 소프트웨어 Blender의 Cycles 엔진에서는 NVIDIA CUDA를 이용한 GPU 렌더링이 가능하다. 또한, 버전 2.6에서는 OpenCL을 이용한 GPU 렌더링도 시험적으로 구현되고 있다. Autodesk 3ds Max에 탑재된 NVIDIA Iray 엔진에서도 CUDA 기반 GPU 가속이 이루어진다.

그 외에도 비트코인 등 암호화폐 채굴 처리에도 GPU가 사용되고 있다.

이처럼 GPGPU는 학술, 연구, 산업 용도뿐만 아니라 일반 사용자도 활용할 수 있는 환경이 갖춰지고 있다. 하지만, 여전히 GPU는 CPU와 비교하여 특수한 성격을 가지고 있어, 소프트웨어 개발에는 파이프라인 처리나 병렬 계산 등의 지식과 하드웨어 및 API에 대한 지식이 필요하다. 이러한 문제를 해결하기 위해, OpenACC나 OpenMP 등을 이용하여 일반 C 언어 소스에 지시 행을 추가하여 GPU에 처리를 오프로드하는 방식 등 일반적인 애플리케이션 개발자가 GPGPU를 쉽게 사용할 수 있도록 하는 기술도 개발되고 있다.