GPGPU
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
GPGPU(General-Purpose computing on Graphics Processing Units)는 그래픽 처리 장치(GPU)를 범용 컴퓨팅에 활용하는 기술이다. 초기에는 그래픽 파이프라인 가속에 국한되었던 GPU의 기능을 프로그래밍 가능한 셰이더와 부동 소수점 지원을 통해 행렬 및 벡터 연산 문제 해결에 활용하면서 발전했다. 2007년 엔비디아의 CUDA, 2008년 크로노스 그룹의 OpenCL 출시로 GPGPU 프로그래밍의 접근성이 향상되었고, 빅데이터, 가상 화폐, 인공 지능 분야의 발전에 기여했다. GPGPU는 데이터 병렬 처리에 특화되어 CPU보다 높은 연산 성능을 제공하지만, 조건 분기, 메모리 접근 패턴에 따라 성능 차이가 크다. GPGPU는 과학 계산, 생명 정보학, 분자 동역학, 이미지 처리, 컴퓨터 비전 등 다양한 분야에서 활용되며, 하드웨어 발전과 소프트웨어 개발을 통해 성능과 활용성을 지속적으로 향상시키고 있다.
더 읽어볼만한 페이지
- 계산과학 - 인공 일반 지능
인공 일반 지능(AGI)은 추론, 지식 표현, 학습 등의 능력을 갖춘 인공지능 시스템을 의미하며, 기아와 빈곤 해결 등의 이점을 제공하지만 통제력 상실과 같은 위험도 존재한다. - 계산과학 - 기호계산
기호계산은 기호를 조작하여 수학적 식을 계산하는 컴퓨터 과학의 한 분야이며, 수치 계산과 대비된다. - GPGPU - 인텔 Xe
인텔 Xe는 저전력부터 고성능 컴퓨팅까지 다양한 시장을 목표로 하는 인텔의 GPU 아키텍처 제품군으로, Xe-LP, Xe-HPG, Xe-HP, Xe-HPC 등의 하위 아키텍처를 가지며 외장 그래픽 카드인 인텔 아크 시리즈와 내장 그래픽, 데이터 센터용 GPU 등에 활용된다. - GPGPU - 테라스케일 (마이크로아키텍처)
테라스케일은 AMD가 개발한 GPU 마이크로아키텍처로, 셰이더 처리량 증가를 위해 통합 셰이더 모델을 사용하며, VLIW 아키텍처를 기반으로 라데온 HD 2000, 3000, 4000, 5000, 6900 시리즈에 적용되었다가 그래픽스 코어 넥스트 아키텍처로 대체되었다. - 명령어 처리 - 멀티스레딩
멀티스레딩은 프로세스 내에서 여러 스레드를 동시 실행하여 처리 능력을 향상시키는 기술로, 응답성 향상과 자원 공유 등의 장점이 있지만, 자원 간섭과 소프트웨어 복잡성 증가 등의 단점도 존재하며, 다양한 모델과 구현 방식, 스레드 스케줄러, 가상 머신 활성화 가능성 등을 고려해야 한다. - 명령어 처리 - 마이크로아키텍처
마이크로아키텍처는 명령어 집합 아키텍처를 구현하는 프로세서의 구성 요소, 상호 연결, 작동 방식을 포괄하는 개념으로, 동일 ISA에서 반도체 기술 발전과 새로운 구조 및 회로를 통해 성능 향상을 가능하게 한다.
GPGPU | |
---|---|
GPGPU 개요 | |
![]() | |
유형 | 이종 컴퓨팅 |
응용 분야 | 기계 학습 딥 러닝 과학 컴퓨팅 디지털 신호 처리 이미지 처리 비디오 처리 물리 시뮬레이션 금융 모델링 |
기술적 세부 사항 | |
아키텍처 | SIMT (단일 명령어, 다중 스레드) |
프로그래밍 모델 | CUDA OpenCL DirectCompute SYCL HIP (이종 컴퓨팅을 위한 휴대용 인터페이스) |
하드웨어 공급업체 | NVIDIA AMD 인텔 ARM (기업) |
장점 및 단점 | |
장점 | 높은 병렬 처리 성능 CPU에 비해 우수한 성능/전력비 |
단점 | CPU에 비해 높은 대기 시간 특정 유형의 작업에 대한 제한된 프로그래밍 유연성 |
관련 개념 | |
관련 개념 | GPU 가속 컴퓨트 셰이더 CUDA OpenCL 이종 컴퓨팅 고성능 컴퓨팅 병렬 컴퓨팅 |
역사적 맥락 | |
초기 사용 | 컴퓨터 그래픽스 |
진화 | 과학 컴퓨팅 및 기계 학습에 대한 채택 증가 |
성능 고려 사항 | |
메모리 대역폭 | GPGPU 성능의 중요한 요소 |
최적화 기술 | 커널 융합, 메모리 액세스 최적화 |
참고 자료 | |
관련 서적 | "CUDA by Example: An Introduction to General-Purpose GPU Programming" by Jason Sanders and Edward Kandrot "Programming Massively Parallel Processors: A Hands-on Approach" by David B. Kirk and Wen-mei W. Hwu |
2. 역사
GPU는 초기에는 그래픽 처리만을 위해 설계되어 기능이 매우 제한적이었다. 3차원 컴퓨터 그래픽스 가속에만 사용되었으며, 흐름 처리를 이용하는 등 제한적인 경우에만 일반 연산에 활용될 수 있었다.[6] 1987년에는 콘웨이의 게임 오브 라이프가 초기 스트림 프로세서인 블리터를 사용하여 범용 컴퓨팅의 초기 사례 중 하나가 되었다.
2001년경 프로그래밍 가능한 셰이더와 부동 소수점 지원이 등장하면서 GPU를 범용 컴퓨팅에 활용하는 것이 더 실용적이고 대중화되었다. 특히 행렬 및 벡터 연산은 GPU에 쉽게 적용될 수 있었는데, 2003년에는 두 연구 그룹이 독립적으로 GPU 기반 접근 방식이 CPU보다 빠르게 일반 선형 대수 문제를 해결할 수 있음을 발견했다.[7][8] 초기에는 그래픽 API인 OpenGL 및 DirectX를 통해 계산 문제를 재구성해야 했지만, Sh/RapidMind, Brook, Accelerator와 같은 범용 프로그래밍 언어 및 API가 등장하면서 이러한 번거로움이 사라졌다.[9][10][11]
이후 NVIDIA의 CUDA가 등장하여 프로그래머들이 그래픽 개념을 벗어나 고성능 컴퓨팅 개념을 활용할 수 있게 되었다.[12] 또한, 마이크로소프트의 DirectCompute와 애플/크로노스 그룹의 OpenCL과 같은 최신, 하드웨어 공급업체에 독립적인 제품들이 등장하면서 GPGPU 파이프라인은 데이터를 그래픽 형태로 변환하지 않고도 GPU의 속도를 활용할 수 있게 되었다.
"GPGPU"라는 용어는 GPGPU.org의 설립자인 마크 해리스(Mark Harris)가 만들었다. CUDA가 발표되기 전(2007년 이전)의 "고전적인" GPGPU는 그래픽 기본 요소를 재사용하는 방식을 사용했으며, 그 구조는 다음과 같았다.
# 배열을 텍스처로 불러오기
# 사각형 그리기
# 픽셀 셰이더와 텍스처를 사각형에 적용
# 사각형의 픽셀 값을 배열로 읽어 들이기
GPU는 그래픽 처리를 위해 특별히 설계되었기 때문에 스트림 프로세싱에 적합하며, 많은 수의 정점과 조각을 병렬로 처리하는 데 효과적이다. 이상적인 GPGPU 애플리케이션은 대용량 데이터 세트, 높은 병렬 처리, 데이터 요소 간의 최소한의 종속성을 가져야 하며, 높은 산술 강도를 갖는 것이 중요하다.[38]
2. 1. 초기 시도와 한계 (1998년 ~ 2006년)
GPGPU영어의 초기 시도는 1998년으로 거슬러 올라간다. 당시에는 GPU라는 개념이 아직 확립되지 않았고, 프로그래밍 가능한 셰이더도 존재하지 않았다. 이안 벅(Ian Buck)은 SGI O2영어 R5000과 SGI Indigo2영어 R4400 Maximum IMPACT의 그래픽 가속기를 이용해 OpenGL의 프레임 버퍼를 활용, 유체 계산을 가속화하는 실험을 진행했다.[93][94] 이 실험에서는 점화식 계산의 각 단계마다 2장의 프레임 버퍼를 사용했으며, 실제로 몇 배의 속도 향상을 얻을 수 있었다. 당시 SGI의 워크스테이션은 기하 엔진이 별도의 LSI 칩으로 탑재되어 있어, 훗날 GPU의 원형이라 할 수 있는 구성을 갖추고 있었다.[95]하지만 당시에는 고정 기능 셰이더만 사용할 수 있었기 때문에, 매우 단순한 모델만 계산할 수 있었고 실용적인 수준과는 거리가 멀었다. 유체 계산 가속화는 OpenGL의 2차원 컨볼루션 필터를 점화식 계산의 확산 연산에 적용하는 방식으로 이루어졌는데, 이는 하드웨어에서 병렬로 처리되었다. 그러나 물리 모델을 2차원 컨볼루션 필터로 표현하여 표준 기능에 전달하는 것 외에는 할 수 없었기 때문에, 오늘날의 GPGPU와 비교하면 자유도가 매우 낮았다. 또한, RGB 각 색상 8비트를 수치에 할당했기 때문에 계산 정밀도가 8비트를 초과하면 RGB 색상 간 자리 올림 등을 구현해야 했고, 이는 큰 오버헤드를 발생시켜 계산 속도를 저하시키는 문제점이 있었다. 이안 벅 자신도 이러한 제약을 완화하기 위해서는 그래픽 하드웨어의 발전이 필요하다고 언급했다.[93]
1999년, GeForce 256 출시와 함께 지오메트리 엔진이 그래픽 가속기에 통합되면서 "GPU"라는 제품 카테고리가 등장했다. 2000년 11월 9일에는 어셈블리 언어로 128개 명령만 기술 가능한 원시적인 프로그래머블 셰이더(셰이더 모델 1.x)가 등장했다.
2002년에는 GPU의 고정 기능 셰이더가 프로그래머블 셰이더로 대체되면서 큰 발전이 이루어졌다. 이안 벅은 GPU의 발전 속도가 무어의 법칙을 넘어선다고 보고, 스트림 프로세서로서 GPU의 미래를 예측하며 GPU를 이용한 레이 트레이싱 계산 가속화에 대한 논문을 발표했다.[96]
2002년 12월 20일, 셰이더 모델 2.0이 등장하면서 GPU의 프로그래밍 가능한 셰이더에서 더 긴 명령 길이와 부동소수점 연산을 처리할 수 있게 되었다. 이를 계기로 2003년경부터 GPGPU가 본격적으로 시도되기 시작했으며, 2004년 8월에는 세계 최초의 GPGPU 학회인 "GP2"(Workshop on General Purpose Computing on Graphics Processors)가 개최되었다.[97]
하지만 당시 GPU는 이미지 처리에 특화되어 제작되었기 때문에 연산 정밀도가 부족하고 가상 메모리 처리가 불가능하다는 등의 제약이 있었다. 또한, GPU 제조사들은 수율 향상을 위해 화면 표시에 문제가 없으면 계산 오류가 있어도 GPU를 출하했기 때문에, 계산 오류를 일으키는 GPU를 검품하여 제거해야 하는 문제도 있었다.
2. 2. CUDA 및 OpenCL 등장과 GPGPU 확산 (2007년 이후)
2007년 NVIDIA는 CUDA를 발표하여 그래픽스 API를 거치지 않고 C 언어와 유사한 방식으로 GPGPU 프로그래밍을 가능하게 했다.[94] 2008년경부터 GPGPU가 보급되기 시작했으며,[97] CUDA가 유명해지면서 NVIDIA는 GPGPU 분야의 선두 주자가 되었다.같은 해 크로노스 그룹은 여러 플랫폼에서 사용 가능한 개방형 표준인 OpenCL을 발표했다. CUDA와 OpenCL의 등장은 GPGPU 프로그래밍의 진입 장벽을 낮추고, 빅데이터, 가상 화폐, 인공 지능 붐을 뒷받침하는 존재가 되었으며, 2020년대에는 붐이 지나치게 과열되어 GPU 제품의 공급이 부족한 사태까지 발생하고 있다.[98]
2008년 가을부터 S3는 GPU를 이용한 GPGPU용 사진 수정소프트웨어 "S3FotoPro"를 발표했으며,[172] 동영상 편집 가공 소프트웨어에서는 동영상 인코딩 소프트웨어의 대표 격인 TMPGEnc가 CUDA를 지원하기 시작했고,[173] 사이버링크의 PowerDirector 7은 CUDA와 ATI Stream을 지원하게 되었다.[174]
3. GPGPU 프로그래밍 개념
GPU는 흐름 처리에 최적화되어 있어, 대량의 데이터를 병렬로 처리하는 데 강점을 보인다. GPGPU 프로그래밍을 위해서는 다음과 같은 주요 개념을 이해해야 한다.
- '''흐름(Stream):''' 유사한 계산을 필요로 하는 데이터 요소(레코드)들의 집합이다. GPU에서는 꼭짓점과 프래그먼트가 흐름의 요소가 된다. 흐름은 데이터 병렬성을 제공한다.
- '''커널(Kernel):''' 흐름 속의 각 요소에 적용되는 함수이다. GPU에서는 셰이더가 커널 역할을 한다.
- '''산술 치열도(Arithmetic Intensity):''' 메모리 전송량 대비 연산량의 비율이다. GPGPU 응용 프로그램은 높은 산술 치열도를 가져야 메모리 접근 지연에 의한 성능 저하를 막을 수 있다.[38]
이상적인 GPGPU 응용 프로그램은 데이터 집합이 크고, 병렬성이 높으며, 데이터 요소 간의 의존성이 최소화된 특징을 갖는다.
GPU는 원래 그래픽 처리를 위해 설계되었기 때문에, 일반적인 연산에 활용하기 위해서는 몇 가지 제약이 따른다. 하지만, 그래픽 카드 제조사와 연구자들의 노력으로 GPU의 활용 영역은 점차 넓어지고 있다.
3. 1. 계산 자원
GPU는 다음과 같은 다양한 계산 자원을 가지고 있다:[188]- 프로그램 가능한 프로세서 – 버텍스(꼭짓점), 프리미티브(3차원 그래픽스의 기본 요소, 점, 선, 면, 구, 상자), 프래그먼트 파이프라인으로 프로그래머는 데이터의 흐름에 커널을 실행할 수 있다.
- 래스터라이저 – 프래그먼트를 생성하고 텍스처 좌표와 색상 등 정점별 상수를 보간한다.
- 텍스처 유닛 – 읽기 전용 메모리 인터페이스
- 프레임 버퍼 – 쓰기 전용 메모리 인터페이스
프로그래머는 프레임 버퍼 대신 쓰기 전용 텍스처를 출력으로 대체할 수 있다. 이는 텍스처 렌더링(RTT), 렌더-백버퍼-텍스처 복사(RTBCTT) 또는 스트림 아웃을 통해 수행된다.
3. 2. 텍스처와 커널
GPGPU에서 흐름(stream)은 주로 2차원 격자 형태로 표현되는데, 이는 GPU에 내장된 렌더링 모델과 잘 맞기 때문이다. 행렬 연산, 이미지 처리, 물리 기반 시뮬레이션 등 많은 계산 작업이 격자 형태로 나타낼 수 있다. 텍스처는 메모리 역할을 하며, 텍스처 룩업(lookup)은 메모리 읽기로 사용된다. 이 덕분에 특정 연산은 GPU가 자동 수행한다.커널은 반복문의 본체라고 생각할 수 있다. 예를 들어, CPU로 격자 행렬을 다루는 코드는 다음과 유사하다.
```c
// 입력 및 출력 격자는 10000 x 10000 크기 (1억 개 요소)
void transform_10k_by_10k_grid(float in[10000][10000], float out[10000][10000])
{
for (int x = 0; x < 10000; x++) {
for (int y = 0; y < 10000; y++) {
// 다음 줄은 1억 번 실행됨
out[x][y] = do_some_hard_work(in[x][y]);
}
}
}
```
GPU에서는 프로그래머가 반복문의 본체(커널)와 반복문이 기하학적으로 처리할 데이터를 지정한다.
4. GPU vs. CPU
GPU는 데이터 병렬 처리에 특화되어 CPU보다 높은 연산 성능을 제공하지만, 몇 가지 제약 조건이 있다. GPU는 3차원 컴퓨터 그래픽스 가속에 목적을 두고 설계되었기 때문에, 흐름 처리를 이용해 풀 수 있는 문제에 효과적이다.[6]
GPU는 메모리에 순차적으로 접근하고 조건 분기가 없는 계산에 강하며, 대표적인 예로 행렬 계산이 있다. 반면, 이진 탐색처럼 조건 분기가 많고 메모리에 무작위로 접근하는 연산이나, 포인터를 따라가며 연결 리스트나 트리 구조를 처리하는 작업, 그리고 희소 행렬은 GPU에 취약하다. 도쿄 대학 정보기반센터에 따르면 희소 행렬 처리 효율은 최대 100배까지 느려질 수 있다.[105] 그래프 계산에서 최단 경로 문제를 예로 들면, 완전 그래프와 같이 밀집된 그래프는 빠르게 계산할 수 있지만, 정점에서 몇 개의 변만 나오는 희소 그래프는 느리게 처리된다.[106]
GPGPU는 2001년경 프로그래밍 가능한 셰이더와 그래픽 프로세서의 부동 소수점 지원이 등장하면서 더욱 실용화되었다.[7][8] 특히, 행렬 및 벡터 연산은 GPU에 쉽게 변환될 수 있었다. 2003년에는 두 연구 그룹이 GPU 기반 접근 방식이 CPU보다 빠른 선형 대수 문제 해결에 유용함을 발견했다.[7][8] 초기에는 그래픽 API인 OpenGL 및 DirectX를 통해 그래픽 기본 요소 측면에서 계산 문제를 재구성해야 했지만, CUDA[12], DirectCompute, OpenCL[12] 등의 등장으로 이러한 번거로움이 사라졌다.
GPGPU는 대규모 데이터 세트, 2차원/3차원 이미지 처리, 과학 컴퓨팅, 게놈 매핑, 생체 분자 분석, 단백질 연구, 유기 화학 등 다양한 분야에서 활용된다. 게놈 분석을 위한 NVIDIA 소프트웨어 제품군이 그 예시이다.
GPGPU는 하드웨어 개념이 아닌 알고리즘의 유형이지만, 특수 장비 설계는 GPGPU 파이프라인의 효율성을 더욱 향상시킬 수 있다. 예를 들어, 랙 컴퓨팅과 같이 대량 병렬화된 작업은 특수 설정을 통해 더욱 효율적으로 처리할 수 있다.
4. 1. 조건 분기
GPU는 SIMD 방식으로 작동하여 한 번의 연산으로 여러 데이터에 대해 같은 연산을 수행한다. 이러한 방식은 3차원 연산 및 멀티미디어 처리에 효과적이지만, 조건 분기가 포함되면 오버헤드가 증가하여 효율이 급격히 떨어진다.[109][110] 오늘날의 CPU는 추측 실행 등의 기능을 통해 이러한 문제를 최소화하지만, GPU는 이러한 기능을 갖추고 있지 않다.최근 GPU는 분기를 허용하지만, 일반적으로 성능 저하가 발생한다. GPU는 메모리에 순차적으로 접근하며, 조건 분기가 없는 계산(연산 밀도가 높은 처리)에 강하다. 예를 들어 행렬 계산은 GPU에 적합하지만, 이진 탐색과 같이 조건 분기가 많고 메모리에 무작위로 접근하는 경우는 효율이 떨어진다.[105]
PC용 GPU에서는 셰이더 프로세서마다 분기하기 위한 프로그램 카운터를 가지고 있지 않기 때문에, 조건 분기 시 마스크 레지스터를 사용하여 실제로 명령을 실행할지 여부를 나누는 기법이 사용된다.[111][112]
일반적인 애플리케이션에서는 조건 분기가 자주 발생하므로, 이러한 제약은 GPU가 오피스 스위트와 같은 애플리케이션 실행에 적합하지 않게 만든다. 따라서 GPGPU 발전에 있어 조건 분기 효율을 높이는 것은 중요한 과제이다.
4. 2. 부동 소수점 연산
GPU는 원래 단정밀도 부동 소수점 연산에 강점을 가지도록 설계되었다. 특히 실시간 3D 그래픽스 처리와 같은 이미지 연산에서는 정수 연산이나 단정밀도 부동 소수점 연산으로 충분하기 때문이다. 따라서 부동 소수점 연산기는 가수부가 24비트 정도로 제한되어, 단정밀도 연산기로 배정밀도 부동 소수점 연산을 수행하려면 여러 번의 연산이 필요하여 성능 저하를 초래했다.[115]하지만, 과학 기술 계산 분야에서는 배정밀도 부동 소수점 연산(64비트)이 필수적이다. 이러한 요구에 따라, HPC(고성능 컴퓨팅)용으로 설계된 GPU 제품들은 배정밀도 전용 연산기를 탑재하거나 활성화하여 배정밀도 연산 성능을 향상시켰다.[115]
AMD는 2007년에 R6xx 코어를 기반으로 한 "FireStream 9170"을 출시하여 업계 최초로 배정밀도 부동 소수점 연산을 지원했다.[117] 그러나 배정밀도 이론 연산 성능은 단정밀도의 1/5 수준이었다.[118] 2014년에 출시된 AMD FirePro S9100/S9150에서는 배정밀도 연산 성능이 강화되어, 배정밀도 이론 연산 성능이 단정밀도의 1/2로 향상되었다.[120][121]
NVIDIA는 2008년에 출시된 NVIDIA Tesla C1060에서 배정밀도를 지원했지만, 단정밀도 933GFLOPS에 비해 배정밀도는 78GFLOPS로[122], 배정밀도 연산 성능이 매우 낮았다. 2010년 Fermi 세대의 Tesla 20 시리즈[123][124]에서는 배정밀도 이론 연산 성능이 단정밀도의 1/2로 향상되었지만, 2012년 Kepler 세대의 Tesla K20 시리즈[125][126] 등에서는 단정밀도의 1/3 수준이었다.
2020년 현재에도 HPC용을 제외한 일반 GPU에서는 저전력 성능이나 게이밍 성능을 우선시하여 배정밀도 연산 성능은 제한적으로 제공되는 경우가 많다.[130] 또한, 배정밀도 전용 연산 유닛은 단정밀도 연산을 수행할 수 없기 때문에, 칩 설계 단계에서 단정밀도와 배정밀도 중 어느 쪽을 우선할 것인지에 대한 트레이드오프가 발생한다.
딥 러닝 계산에서는 높은 계산 정밀도가 필요하지 않기 때문에, 반정밀도(16비트) 연산을 빠르게 수행할 수 있도록 하드웨어적인 지원이 이루어지고 있다.[132] 또한, 지수부를 늘린 bfloat16 형식이 고안되어 일부 GPU에서 지원되고 있다.
DirectX 11을 지원하는 AMD GPU와 Fermi 세대 이후의 NVIDIA GPU는 부동 소수점 연산 정밀도가 IEEE 754 규격을 준수한다. 두 회사 GPU 모두 융합 곱셈-덧셈 연산 (FMA) 명령을 지원하지만, CPU에서 FMA를 사용하지 않고 같은 처리를 실행했을 때와 GPU의 연산 결과가 다를 수 있다.
4. 3. 메모리
GPU는 고속의 그래픽스 메모리(VRAM)를 사용하지만, CPU와의 데이터 전송은 병목 현상을 일으킬 수 있다. 일반적으로 GPU와 비디오 카드는 접근 속도가 훨씬 빠른 더 적은 양의 더 비싼 메모리를 포함한다. 분석할 데이터 세트의 일부를 텍스처 또는 기타 쉽게 읽을 수 있는 GPU 형식으로 해당 GPU 메모리로 전송하면 속도가 증가한다. GPGPU 설계의 특징은 정보를 GPU에서 CPU로 양방향 통신으로 전송할 수 있다는 것이다. 일반적으로 양방향 데이터 처리량은 이상적으로 높으며 특정 고사용 알고리즘의 속도에 승수 효과를 가져온다.[150]GPU에 의한 VRAM 접근은, 복수의 프로세서군에 의해 병렬적으로 발생하기 때문에, 연속된 메모리 영역에 대한 코어레스 액세스(coalesce access, ≒시퀀셜 액세스)를 행함으로써 효율화, 고속화할 수 있다[139]. NVIDIA GPU에서는 32개의 하드웨어 스레드를 묶는 배치 단위를 ''Warp''[140]라고 부르고, AMD GPU에서는 64개의 하드웨어 스레드를 묶는 배치 단위를 ''Wavefront''[141]라고 부르지만, 이들 유닛 내에서는 프로세서가 완전히 동기화하여 동작하기 때문에, 배치 단위마다 묶어서 연속 영역에 접근(코어레스 액세스)함으로써 효율이 좋아진다. 반대로 말하면, 배치 단위 내의 스레드가 각각 멀리 떨어진 제각각의 주소에 접근하는 비코어레스 액세스(≒랜덤 액세스)는 효율이 나빠진다.
공유 메모리(shared memory)는 GPU 내 프로세서 그룹 간의 고속 데이터 교환을 가능하게 하지만, 용량이 제한적이다. 공유 메모리는 소용량이지만 고속이며, 사용자 프로그래머가 명시적으로 관리할 수 있는 캐시 메모리(≒L1 캐시)의 역할을 하며, 복수의 코어에서 데이터를 공유, 교환하는 목적으로 사용할 수 있다.
예를 들어 Fermi/Kepler 마이크로 아키텍처에서는, 1SMX당 최대 48KB의 공유 메모리를 사용할 수 있지만[145], 외부에 있는 DRAM에 캐시 없이 접근하는 경우에 비해, 공유 메모리의 레이턴시는 (스레드 간의 뱅크 컨플릭트가 없는 한) 100배 작아진다. 따라서, 복수의 스레드에서 참조되는 데이터의 임시적인 쓰기 장소로서 공유 메모리를 활용함으로써, 고속 병렬 알고리즘이나, GPU 프로그래밍에서 고속화에 필요한 코어레스 액세스(≒시퀀셜 액세스)를 실현할 수 있다고 NVIDIA는 설명하고 있다[146]. 그러나, 최대 48KB밖에 없는 공유 메모리라는 하드웨어 제약이 알고리즘의 폭에 제한을 걸기 때문에, 공유 메모리의 존재는 GPU 프로그래밍의 어려움으로 이어진다. 또한, 공유 메모리에 읽고 쓸 때, 스레드 간의 동기를 취하기 위한 처리도 프로그래머가 명시적으로 기술할 필요가 있다.
각 API에서는, CUDA는 공유 메모리, OpenCL은 로컬 메모리, DirectCompute는 그룹 공유 메모리[143], C++ AMP는 타일 정적 메모리[144]라는 명칭으로, 각각 동등한 기능을 갖추고 있다.
컴퓨터의 마더보드와 dGPU를 연결하는 PCI Express 규격은 CPU-시스템 메모리 간이나 GPU-비디오 메모리 간에 비해 대역폭이 훨씬 좁아, GPGPU를 쉽게 도입하려 하면 데이터 전송이 병목 현상을 일으켜 오히려 성능 저하를 초래할 가능성이 있다.[150] 이 점에 관해서는, 엔비디아(NVIDIA)가 개발한 독자적인 인터커넥트 기술인 NVLink[151] [152] 등의 해결책이 모색되고 있다.
5. GPGPU 활용 분야
GPGPU는 3차원 컴퓨터 그래픽스 처리 외에도 다양한 분야에서 활용되고 있다. GPU는 대량의 데이터를 병렬로 처리하는 데 강점을 지니고 있어, 복잡한 계산을 빠르게 수행해야 하는 분야에서 널리 사용된다. GPU가 범용 컴퓨팅에 사용되는 주요 분야는 다음과 같다.[34]
- 자동 병렬화[47][48][49]
- 물리 기반 시뮬레이션 및 물리 엔진: 콘웨이의 생명 게임, 천체 시뮬레이션, 비압축성 흐름 계산[50][51]
- 통계 물리학: 이징 모형 계산[53]
- 격자 게이지 이론
- 영상 분할 (2D 및 3D)[54]
- 레벨 집합 방법
- CT 재구성[55]
- 고속 푸리에 변환[56]
- 머신 러닝 및 데이터 마이닝: GPU 학습 (예: BIDMach 소프트웨어 사용)[57]
- k-최근접 이웃 알고리즘[57]
- 퍼지 논리[58]
- 톤 매핑
- 오디오 신호 처리: 오디오 및 음향 효과 처리, 디지털 신호 처리(DSP)[59]
- 아날로그 신호 처리
- 음성 처리
- 디지털 이미지 처리
- 비디오 처리: 하드웨어 가속 비디오 디코딩 및 후처리, 하드웨어 가속 비디오 인코딩 및 전처리[60]
- 전역 조명: 광선 추적, 광자 매핑, 레디오시티, 표면 아래 산란
- 기하학적 계산: 구성적 솔리드 형상, 거리 필드, 충돌 감지, 투명도 계산, 그림자 생성
- 과학 계산
- 빛 전파 몬테카를로 시뮬레이션[61]
- 일기 예보
- 기후 연구
- GPU의 분자 모델링[62]
- 양자 역학 물리학
- 천체 물리학[63]
- 전산 금융
- 의료 영상
- 임상 의사 결정 지원 시스템(CDSS)[66]
- 컴퓨터 비전[67]
- 디지털 신호 처리 / 신호 처리
- 제어 공학
- 운용 과학: 자원 제약 프로젝트 일정 계획 문제, 간호사 스케줄링 문제 해결 알고리즘[68][69][70]
- 신경망
- 데이터베이스 작업[73]
- 전산 유체 역학: 격자 볼츠만 방법 사용
- 암호화 및 암호 해독: MD6, 고급 암호화 표준(AES), 데이터 암호화 표준(DES), RSA, 타원 곡선 암호(ECC) 구현, 암호 해독, 암호화폐 거래 처리 (비트코인 채굴)[74][75][76][77][78][79]
- 전자 설계 자동화[80][81]
- 안티바이러스 소프트웨어[82][83]
- 침입 탐지[84][85]
- 분산 컴퓨팅 프로젝트: SETI@home, Einstein@home 컴퓨팅 성능 향상
5. 1. 생명 정보학
GPGPU를 활용한 생물정보학은 DNA 염기 서열 분석, 단백질 데이터베이스 검색, 모티프 발견 등 다양한 분야에서 계산 속도를 크게 향상시킨다.[62][86]
5. 2. 분자 동역학
GPGPU는 단백질, DNA, 리간드 등의 분자 동역학 시뮬레이션에 활용되어 연구 개발 시간을 단축시킨다.[62] 다음은 GPGPU를 활용한 분자 모델링 프로그램들이다.응용 프로그램 | 설명 | 지원 기능 | 예상 속도 향상† | GPU‡ | 멀티 GPU 지원 | 출시 상태 |
---|---|---|---|---|---|---|
전복 | 단백질, DNA 및 리간드의 시뮬레이션을 위한 생체 고분자의 분자 역학 모델 | 명시적 및 암시적 용매, 하이브리드 몬테 카를로 | 4–120배 | T 2075, 2090, K10, K20, K20X | 현재 사용 가능, 버전 1.8.88 | |
ACEMD | 분자 역학력장, 암시적 및 명시적 용매의 GPU 시뮬레이션 | GPU에서 사용하도록 작성됨 | GPU 버전만 하루 160 ns | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능 |
AMBER | 생체 분자에 대한 분자 역학을 시뮬레이션하는 프로그램 모음 | PMEMD: 명시적 및 암시적 용매 | JAC NVE 하루 89.44 ns | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능, 버전 12 + 버그 수정 9 |
DL-POLY | 분산 메모리 병렬 컴퓨터에서 거대 분자, 고분자, 이온 시스템 등을 시뮬레이션 | 2체력, 링크-셀 쌍, Ewald SPME 힘, Shake VV | 4배 | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능, 버전 4.0 소스 전용 |
CHARMM | 생체 분자에 대한 분자 역학을 시뮬레이션하는 MD 패키지. | OpenMM을 통한 암시적(5배), 명시적(2배) 용매 | TBD | T 2075, 2090, K10, K20, K20X | 예 | 2012년 4분기 개발 중 |
GROMACS | 복잡한 결합 상호 작용을 가진 생화학 분자를 시뮬레이션 | 암시적(5배), 명시적(2배) 용매 | DHFR 하루 165 ns | T 2075, 2090, K10, K20, K20X | 현재 사용 가능, 2012년 4분기 버전 4.6 | |
HOOMD-Blue | GPU를 위해 처음부터 작성된 입자 역학 패키지 | GPU용으로 작성됨 | 2배 | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능 |
LAMMPS | 고전 분자 역학 패키지 | Lennard-Jones, Morse, Buckingham, CHARMM, 표로 작성된, 코스 입자 SDK, 이방성 Gay-Bern, RE-제곱, "하이브리드" 조합 | 3–18배 | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능 |
NAMD | 대규모 분자 시스템의 고성능 시뮬레이션을 위해 설계됨 | 1억 개 원자 가능 | 585x 2050s STMV 하루 6.44 ns | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능, 버전 2.9 |
OpenMM | GPU를 사용한 HPC를 위한 분자 역학을 위한 라이브러리 및 응용 프로그램 | 암시적 및 명시적 용매, 사용자 지정 힘 | 암시적: 하루 127–213 ns; 명시적: DHFR 하루 18–55 ns | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능, 버전 4.1.1 |
† 예상 속도 향상은 시스템 구성에 따라 크게 달라진다. GPU 성능은 다중 코어 x86 CPU 소켓과 비교된다. GPU 성능은 GPU 지원 기능에 대해 벤치마킹되었으며 커널 간 성능 비교일 수 있다. 사용된 구성에 대한 자세한 내용은 응용 프로그램 웹사이트를 참조하라. Nvidia 내부 테스트 또는 ISV의 설명서에 따른 속도 향상이다.
‡ Q=쿼드로 GPU, T=테슬라 GPU. 이 응용 프로그램에 권장되는 Nvidia GPU이다. 인증 정보를 얻으려면 개발자 또는 ISV에 문의하라.
5. 3. 기타 분야
GPGPU는 다음과 같은 다양한 분야에서 활용되고 있다.- 전산 물리학: 물리 기반 시뮬레이션 및 물리 엔진에 활용된다. 콘웨이의 생명 게임, 천 시뮬레이션, 비압축성 흐름 계산 등에 쓰인다.[50]
- 통계 물리학: 이징 모형 계산에 활용된다.[53]
- 의료 영상: CT 재구성에 사용된다.[55]
- 컴퓨터 비전[67]
- 디지털 신호 처리 / 신호 처리: 오디오 신호 처리[59], 음향 효과 처리, 디지털 신호 처리(DSP)에 GPU를 사용하며, 아날로그 신호 처리 및 음성 처리에도 활용된다.
- 제어 공학
- 운용 과학: 자원 제약 프로젝트 일정 계획 문제, 간호사 스케줄링 문제 등을 해결하는 알고리즘 개발에 사용된다.[68][69][70]
- 신경망
- 데이터베이스 작업[73]
- 전산 유체 역학: 특히 격자 볼츠만 방법을 사용한다.
- 암호화[74] 및 암호 해독: MD6, 고급 암호화 표준(AES),[75][76] 데이터 암호화 표준(DES), RSA,[77] 타원 곡선 암호(ECC) 등의 구현과 암호 해독[78][79], 암호화폐 거래 처리 ("채굴") (비트코인 채굴)에 사용된다.
- 전자 설계 자동화[80][81]
- 안티바이러스 소프트웨어[82][83]
- 침입 탐지[84][85]
- 분산 컴퓨팅 프로젝트: SETI@home, Einstein@home과 같은 프로젝트의 컴퓨팅 성능을 높인다.
GPGPU를 활용한 생물정보학 분야는 다음과 같다.[62][86]
GPGPU를 활용한 분자 모델링 분야는 다음과 같다.
응용 프로그램 | 설명 | 예상 속도 향상† | GPU‡ | 멀티 GPU 지원 | 출시 상태 |
---|---|---|---|---|---|
전복 | 단백질, DNA 및 리간드의 시뮬레이션을 위한 생체 고분자의 분자 역학 모델 | 4–120배 | T 2075, 2090, K10, K20, K20X | 현재 사용 가능, 버전 1.8.88 | |
ACEMD | 분자 역학력장, 암시적 및 명시적 용매의 GPU 시뮬레이션 | GPU 버전만 하루 160 ns | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능 |
AMBER | 생체 분자에 대한 분자 역학을 시뮬레이션하는 프로그램 모음 | JAC NVE 하루 89.44 ns | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능, 버전 12 + 버그 수정 9 |
DL-POLY | 분산 메모리 병렬 컴퓨터에서 거대 분자, 고분자, 이온 시스템 등을 시뮬레이션 | 4배 | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능, 버전 4.0 소스 전용 |
CHARMM | 생체 분자에 대한 분자 역학을 시뮬레이션하는 MD 패키지. | TBD | T 2075, 2090, K10, K20, K20X | 예 | 2012년 4분기 개발 중 |
GROMACS | 복잡한 결합 상호 작용을 가진 생화학 분자를 시뮬레이션 | DHFR 하루 165 ns | T 2075, 2090, K10, K20, K20X | 현재 사용 가능, 2012년 4분기 버전 4.6 | |
HOOMD-Blue | GPU를 위해 처음부터 작성된 입자 역학 패키지 | 2배 | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능 |
LAMMPS | 고전 분자 역학 패키지 | 3–18배 | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능 |
NAMD | 대규모 분자 시스템의 고성능 시뮬레이션을 위해 설계됨 | 585x 2050s STMV 하루 6.44 ns | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능, 버전 2.9 |
OpenMM | GPU를 사용한 HPC를 위한 분자 역학을 위한 라이브러리 및 응용 프로그램 | 암시적: 하루 127–213 ns; 명시적: DHFR 하루 18–55 ns | T 2075, 2090, K10, K20, K20X | 예 | 현재 사용 가능, 버전 4.1.1 |
6. 과제와 전망
GPGPU 프로그래밍은 하드웨어 및 API에 대한 지식이 필요하고, 개발 및 튜닝이 어렵다는 과제가 있다. CPU와 GPU 간 데이터 전송 병목 현상, 배정밀도 연산 성능, 조건 분기 효율 등도 개선해야 할 과제이다.
2015년 현재, GPGPU 개발 환경 및 API로는 CUDA, OpenCL, DirectCompute가 대표적이다. GPGPU 초기 개발 환경에 비하면 많이 개선되었지만,[153] 여전히 하드웨어를 고려한 GPGPU 특유의 프로그래밍 지식이 필요하다. 또한, 규격에 따른 표준화 및 추상화에도 불구하고, 장치와의 통신을 위한 로우 레벨 API를 다루어야 하므로, 일반적인 C/C++나 Fortran을 사용한 소프트웨어 개발과는 다른 어려움이 있어 진입 장벽이 높다. 특히 OpenCL과 DirectCompute는 하드웨어 공통 접근 API를 규정할 뿐, CUDA보다 추상화 수준이 낮다. 이러한 문제를 해결하기 위해, 액셀러레이터의 존재를 추상화하고, 기존 CPU 기반 병렬 프로그래밍용 공통 규격인 OpenMP와 유사한 고수준 프로그래밍 환경을 제공하는 OpenACC나 C++ AMP와 같은 규격도 점차 정비되고 있다.[154]
CPU 프로그램은 임베디드 환경을 제외하면 라이브러리를 포함한 고수준 개발 환경이 갖춰진 경우가 많다. C++, Java, C# 등 대표적인 고급 언어에서는, 단순한 연속 메모리 배열뿐 아니라 링크드 리스트, 이진 탐색 트리, 해시 테이블 같은 기본 데이터 구조를 표준 라이브러리에서 제공한다. 그러나 GPU 프로그래밍에서는 기본적으로 배열 구조만 제공된다. 포톤 매핑 개발자 Wann Jensen 박사는 복잡한 데이터 구조를 GPU에서 다루는 것이 CPU보다 훨씬 어렵다고 평가했다.[155]
GPU 연산 결과를 CPU에서 사용하거나, 그 반대의 경우, 기존 아키텍처에서는 GPU 메모리와 CPU 메모리 간 데이터 전송이 필요하다. 이러한 CPU-GPU 간 메모리 전송 시간과 프로그래밍 부담은 성능 병목 현상과 소프트웨어 개발의 어려움을 야기한다. 이는 물리적 메모리가 분리된 dGPU와 CPU 구성뿐 아니라, 물리 메모리를 공유하는 온보드 그래픽스나 CPU 내장 GPU에서도 마찬가지이다. CUDA[161]와 OpenCL[162]은 소프트웨어(드라이버) 수준에서 이러한 전송 부담을 줄이기 위해 통합 메모리(unified memory) 기능이나 공유 가상 메모리(shared virtual memory) 기능을 제공하지만, 메모리 공간 주소 지정을 가상화하여 전송을 자동화할 뿐, 프로그래머가 직접 전송을 기술하여 튜닝하는 경우에 비해 성능 문제가 있을 수 있다.[163]
컴퓨터 마더보드와 dGPU를 연결하는 PCI Express 규격은 CPU-시스템 메모리 간 또는 GPU-비디오 메모리 간 대역폭보다 훨씬 좁아, GPGPU 도입 시 데이터 전송 병목 현상으로 성능 저하를 초래할 수 있다.[150]
GPGPU 프로그램 이식성과 관련하여, CUDA는 NVIDIA 하드웨어 전용이며, DirectCompute (DirectX)는 Microsoft 플랫폼 (Microsoft Windows, Xbox One 등) 전용이라는 제약이 있다. 반면, OpenCL은 GPU뿐 아니라 지원하는 모든 하드웨어와 플랫폼에서 사용할 수 있는 높은 이식성을 가지지만, 성능 이식성은 보장되지 않아 경우에 따라 장치나 칩별 코드 튜닝이 필요할 수 있다.[165][166][167]
6. 1. 한국의 GPGPU 현황 및 정책 방향
주어진 원문 소스에는 '한국의 GPGPU 현황 및 정책 방향' 섹션에 부합하는 내용이 없으므로, 해당 섹션에 대한 내용을 작성할 수 없다. (이 부분은 이전 답변과 동일하며, 변경할 내용이 없습니다.)6. 2. 기술 발전 방향
하드웨어 측면에서는 GPU가 배정밀도(64비트) 부동소수점 연산을 더 잘 지원하도록 발전할 것으로 예상된다. 초기 GPU는 배정밀도 연산을 지원하지 않거나 속도가 매우 느렸지만, 과학적 응용 분야에서 정확도 문제가 중요해짐에 따라 개선이 이루어지고 있다.[188] [189] 또한 메모리 대역폭을 늘리고, CPU와 GPU가 함께 작동하는 이기종 컴퓨팅(Heterogeneous Computing)을 지원하는 방향으로 발전할 것이다.소프트웨어 측면에서는 OpenACC, C++ AMP와 같이 더 쉬운 프로그래밍 환경을 제공하고, 라이브러리와 프레임워크를 확충하여 개발자들이 GPGPU를 더 쉽게 활용할 수 있도록 지원할 것이다. 또한, 딥 러닝 분야의 발전에 따라 반정밀도(16비트) 및 그 이하의 저정밀도 연산, 텐서 처리 장치(TPU) 등 새로운 하드웨어 및 소프트웨어 기술이 등장하고 있다.
2000년대 중반까지 GPGPU 기술은 주로 학술 및 연구 목적으로 활용되었고, 일반 사용자가 활용하기에는 어려움이 있었다. 셰이딩 언어를 직접 사용하거나 독자적인 프로그래밍 언어를 사용해야 했기 때문에 진입 장벽이 높았다.[170] [171]
그러나 2008년 이후, S3의 "S3FotoPro" (GPU를 이용한 GPGPU용 사진 편집소프트웨어)[172], TMPGEnc (CUDA 지원)[173], 사이버링크의 PowerDirector 7 (CUDA 및 ATI Stream 지원)[174] 등 일반 사용자용 소프트웨어가 등장하기 시작했다.
2009년에는 Super LoiLoScope (Pixel Shader 2.0 활용)[175], 사이버링크의 MediaShow Espresso (CUDA와 ATI Stream 지원) 등이 출시되었다.
미국 어도비는 Creative Suite 4 (CS4)에서 CUDA 기반 GPU 가속을 지원했고[176], Creative Suite 5 (CS5)에서는 GPGPU를 공식적으로 지원했다. CS5는 OpenCL 기반으로 개발되어 GPGPU를 이용한 연산을 할 수 있다. After Effects CC에서는 레이 트레이싱 엔진에 OptiX영어를 채용하고 있다.[178]
오픈 소스 3DCG 제작 소프트웨어 Blender의 Cycles 엔진에서는 NVIDIA CUDA를 이용한 GPU 렌더링이 가능하다. 또한, 버전 2.6에서는 OpenCL을 이용한 GPU 렌더링도 시험적으로 구현되고 있다.[183] Autodesk 3ds Max에 탑재된 NVIDIA Iray 엔진에서도 CUDA 기반 GPU 가속이 이루어진다.[184] [185] [186]
그 외에도 비트코인 등 암호화폐 채굴 처리에도 GPU가 사용되고 있다.[187]
이처럼 GPGPU는 학술, 연구, 산업 용도뿐만 아니라 일반 사용자도 활용할 수 있는 환경이 갖춰지고 있다. 하지만, 여전히 GPU는 CPU와 비교하여 특수한 성격을 가지고 있어, 소프트웨어 개발에는 파이프라인 처리나 병렬 계산 등의 지식과 하드웨어 및 API에 대한 지식이 필요하다. 이러한 문제를 해결하기 위해, OpenACC나 OpenMP 등을 이용하여 일반 C 언어 소스에 지시 행을 추가하여 GPU에 처리를 오프로드하는 방식 등 일반적인 애플리케이션 개발자가 GPGPU를 쉽게 사용할 수 있도록 하는 기술도 개발되고 있다.
참조
[1]
간행물
Mediated Reality Using Computer Graphics Hardware for Computer Vision
http://www.eyetap.or[...]
2002-10-07
[2]
논문
An Eye ''Tap'' video-based featureless projective motion estimation assisted by gyroscopic tracking for wearable computer mediated reality
https://link.springe[...]
[3]
간행물
Computer Vision Signal Processing on Graphics Processing Units
http://www.eyetap.or[...]
Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2004)
2004-05-17
[4]
간행물
A data parallel approach to genetic programming using programmable graphics hardware
https://www.cs.york.[...]
ACM
2007-07
[5]
간행물
Using Multiple Graphics Cards as a General Purpose Parallel Computer: Applications to Computer Vision
http://eyetap.org/pa[...]
Proceedings of the 17th International Conference on Pattern Recognition (ICPR2004)
2004-08-23
[6]
논문
LIFE
https://archive.org/[...]
1987-12
[7]
논문
Linear algebra operators for GPU implementation of numerical algorithms
https://dl.acm.org/d[...]
2003-07
[8]
논문
Sparse matrix solvers on the GPU: conjugate gradients and multigrid
https://dl.acm.org/d[...]
2003-07
[9]
논문
Accelerator: using data parallelism to program GPUs for general-purpose uses
https://www.cs.cmu.e[...]
2006
[10]
논문
A performance study of general-purpose applications on graphics processors using CUDA
2008
[11]
논문
Strong scaling of general-purpose molecular dynamics simulations on GPUs
2015
[12]
논문
From CUDA to OpenCL: Towards a performance-portable solution for multi-platform GPU programming
[13]
웹사이트
OpenCL Gains Ground on CUDA
http://www.hpcwire.c[...]
2012-04-10
[14]
간행물
OpenVIDIA: Parallel GPU Computer Vision
http://www.eyetap.or[...]
Proceedings of the ACM Multimedia 2005
2005-11-06
[15]
웹사이트
Hybridizer
http://www.altimesh.[...]
[16]
웹사이트
Home page
http://www.altimesh.[...]
[17]
웹사이트
Hybridizer generics and inheritance
http://www.altimesh.[...]
2017-07-27
[18]
웹사이트
Debugging and Profiling with Hybridizer
http://www.altimesh.[...]
2017-06-05
[19]
웹사이트
Introduction
http://www.aleagpu.c[...]
2016-12-15
[20]
웹사이트
Home page
http://www.quantalea[...]
2016-12-15
[21]
웹사이트
Use F# for GPU Programming
http://fsharp.org/us[...]
F# Software Foundation
2016-12-15
[22]
웹사이트
Alea GPU Features
http://www.quantalea[...]
2016-12-15
[23]
웹사이트
MATLAB Adds GPGPU Support
http://www.hpcwire.c[...]
2010-09-20
[24]
웹사이트
Android 4.2 APIs - Android Developers
http://developer.and[...]
[25]
웹사이트
Migrate scripts to OpenGL ES 3.1
https://developer.an[...]
[26]
웹사이트
Migrate scripts to Vulkan
https://developer.an[...]
[27]
서적
ACM SIGGRAPH 2005 Courses on - SIGGRAPH '05
[28]
간행물
Double precision on GPUs (Proceedings of ASIM 2005)
http://www.mathemati[...]
[29]
웹사이트
Nvidia-Kepler-GK110-Architecture-Whitepaper
http://www.nvidia.co[...]
[30]
웹사이트
Inside Pascal: Nvidia’s Newest Computing Platform
https://devblogs.nvi[...]
[31]
웹사이트
Inside Volta: The World’s Most Advanced Data Center GPU
https://devblogs.nvi[...]
[32]
웹사이트
How Much Power Does Your Graphics Card Need?
https://www.tomshard[...]
[33]
웹사이트
Nvidia Tesla P100 GPU Accelerator
https://images.nvidi[...]
[34]
서적
GPU gems 2: programming techniques for high-performance graphics and general-purpose computation
https://developer.nv[...]
Addison-Wesley
2006
[35]
논문
Fast matrix multiplies using graphics hardware
https://dl.acm.org/d[...]
ACM
2001-11-10
[36]
논문
Linear algebra operators for GPU implementation of numerical algorithms
http://portal.acm.or[...]
ACM Press
2005
[37]
웹사이트
D. Göddeke, 2010. Fast and Accurate Finite-Element Multigrid Solvers for PDE Simulations on GPU Clusters. Ph.D. dissertation, Technischen Universität Dortmund.
http://d-nb.info/100[...]
[38]
논문
A view of the parallel computing landscape
[39]
웹사이트
GPU Gems – Chapter 34, GPU Flow-Control Idioms
https://developer.nv[...]
[40]
문서
Tutorial on removing branches
https://web.archive.[...]
Future Chips
2011
[41]
간행물
A Survey of General-Purpose Computation on Graphics Hardware
http://graphics.idav[...]
GPGPU survey paper
2007-01-04
[42]
웹사이트
S. Sengupta, M. Harris, Y. Zhang, J. D. Owens, 2007. Scan primitives for GPU computing. In T. Aila and M. Segal (eds.): Graphics Hardware (2007).
http://www.idav.ucda[...]
2014-12-16
[43]
논문
Scans as primitive parallel operations
http://www.cs.berkel[...]
2014-12-16
[44]
웹사이트
M. Harris, S. Sengupta, J. D. Owens. Parallel Prefix Sum (Scan) with CUDA. In Nvidia: GPU Gems 3, Chapter 39.
http://developer.nvi[...]
[45]
문서
Allocation-oriented Algorithm Design with Application to GPU Computing
https://sites.google[...]
Merrill, Duane
2011-12
[46]
웹사이트
Modern gpu
https://nvlabs.githu[...]
Sean Baxter
2016-10-07
[47]
문서
Automatic parallelization for graphics processing units.
https://cormack.uwat[...]
Leung, Alan, Ondřej Lhoták, and Ghulam Lashari
2009
[48]
문서
Size slicing: a hybrid approach to size inference in futhark.
https://futhark-lang[...]
Henriksen, Troels, Martin Elsman, and Cosmin E. Oancea
2014
[49]
서적
Proceedings of the 22nd annual international conference on Supercomputing - ICS '08
[50]
문서
A new physics engine with automatic process distribution between CPU-GPU
http://www.academia.[...]
Joselli, Mark, et al.
2008
[51]
웹사이트
K. Crane, I. Llamas, S. Tariq, 2008. Real-Time Simulation and Rendering of 3D Fluids. In Nvidia: GPU Gems 3, Chapter 30.
http://developer.nvi[...]
[52]
웹사이트
M. Harris, 2004. Fast Fluid Dynamics Simulation on the GPU. In Nvidia: GPU Gems, Chapter 38.
http://developer.nvi[...]
[53]
논문
Multi-GPU accelerated multi-spin Monte Carlo simulations of the 2D Ising model
[54]
논문
Automated 3-D Segmentation of Lungs with Lung Cancer in CT Data Using a Novel Robust Active Shape Model Approach
[55]
문서
Rethinking the union of computed tomography reconstruction and GPGPU computing.
https://www.osti.gov[...]
Jimenez, Edward S., and Laurel J. Orr
2013
[56]
논문
Accelerating the Nonequispaced Fast Fourier Transform on Commodity Graphics Hardware
https://www.research[...]
[57]
논문
Fast k Nearest Neighbor Search using GPU
[58]
서적
2011 IEEE Symposium on Computational Intelligence for Security and Defense Applications (CISDA)
[59]
서적
Audio and the Graphics Processing Unit
2005-03-10
[60]
뉴스
DSP brings you a high-definition moon walk
http://www.edn.com/a[...]
2009-09-03
[61]
논문
Parallel computing with graphics processing units for high speed Monte Carlo simulation of photon migration
http://www.atomic.ph[...]
[62]
서적
Advanced Information Systems Engineering
https://hal.inria.fr[...]
[63]
웹사이트
Computational Physics with GPUs: Lund Observatory
http://www.astro.lu.[...]
[64]
논문
High-throughput sequence alignment using Graphics Processing Units
[65]
논문
CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment
2008
[66]
논문
gCUP: rapid GPU-based HIV-1 co-receptor usage prediction for next-generation sequencing.
2014-11-15
[67]
문서
Accelerating computer vision algorithms using OpenCL framework on the mobile GPU-a case study.
https://scholarship.[...]
Wang, Guohui, et al.
2013
[68]
서적
2013 IEEE International Symposium on Parallel & Distributed Processing, Workshops and PhD Forum
https://hal.archives[...]
[69]
논문
Solving the Resource Constrained Project Scheduling Problem using the parallel Tabu Search designed for the CUDA platform
[70]
논문
A Novel Approach for Nurse Rerostering based on a Parallel Algorithm
2016
[71]
웹사이트
CTU-IIG
https://github.com/C[...]
Czech Technical University in Prague, Industrial Informatics Group (2015).
2016-01-09
[72]
웹사이트
NRRPGpu
https://github.com/C[...]
Czech Technical University in Prague, Industrial Informatics Group (2015).
2016-01-09
[73]
웹사이트
GPU-based Sorting in PostgreSQL
http://www.cs.cmu.ed[...]
[74]
간행물
CUDA compatible GPU as an efficient hardware accelerator for AES cryptography
https://koala.cs.pub[...]
2007 IEEE International Conference on Signal Processing and Communications. IEEE, 2007.
2019-05-07
[75]
서적
Cryptographic Hardware and Embedded Systems - CHES 2007
[76]
웹사이트
AES and modes of operations on SM4.0 compliant GPUs.
http://www.usenix.or[...]
Owen Harrison, John Waldron, Practical Symmetric Key Cryptography on Modern Graphics Hardware. In proceedings of USENIX Security 2008.
2010-08-21
[77]
서적
Progress in Cryptology – AFRICACRYPT 2009
[78]
웹사이트
Teraflop Troubles: The Power of Graphics Processing Units May Threaten the World's Password Security System
http://www.gtri.gate[...]
Georgia Tech Research Institute
2010-12-30
[79]
뉴스
Want to deter hackers? Make your password longer
http://www.nbcnews.c[...]
NBC News
2010-08-19
[80]
뉴스
Viewpoint: Mass GPUs, not CPUs for EDA simulations
https://www.eetimes.[...]
2023-09-14
[81]
웹사이트
W2500 ADS Transient Convolution GT
http://www.keysight.[...]
[82]
웹사이트
GrAVity: A Massively Parallel Antivirus Engine
http://www.ics.forth[...]
Giorgos Vasiliadis and Sotiris Ioannidis, GrAVity: A Massively Parallel Antivirus Engine. In proceedings of RAID 2010.
2010-07-27
[83]
뉴스
Kaspersky Lab utilizes Nvidia technologies to enhance protection
http://www.kaspersky[...]
2009-12-14
[84]
웹사이트
Gnort: High Performance Network Intrusion Detection Using Graphics Processors
http://www.ics.forth[...]
Giorgos Vasiliadis et al., Gnort: High Performance Network Intrusion Detection Using Graphics Processors. In proceedings of RAID 2008.
2011-04-09
[85]
웹사이트
Regular Expression Matching on Graphics Hardware for Intrusion Detection
http://www.ics.forth[...]
Giorgos Vasiliadis et al., Regular Expression Matching on Graphics Hardware for Intrusion Detection. In proceedings of RAID 2009.
2010-07-27
[86]
웹사이트
GPU-Accelerated Applications
http://www.nvidia.co[...]
2013-09-12
[87]
서적
Proceedings of the 2015 on Genetic and Evolutionary Computation Conference - GECCO '15
[88]
웹사이트
GPGPU ビジネスパートナー 東芝デジタルメディアエンジニアリング株式会社
http://www.toshiba-d[...]
[89]
웹사이트
GPGPUソリューション HPCシステムズはすべての研究開発者に計算力を提供します。
http://www.hpc.co.jp[...]
[90]
웹사이트
【後藤弘茂のWeekly海外ニュース】 NVIDIA次世代SoC「Xavier」は進化版DenverとVoltaを搭載
http://pc.watch.impr[...]
株式会社インプレス
2023-06-19
[91]
웹사이트
プロセッサ開発のセンス ~第4回 ベクトル・プロセッサ~ {{!}} 株式会社エヌエスアイテクス (NSITEXE,Inc.)
https://www.nsitexe.[...]
2023-06-18
[92]
웹사이트
「ベクトル型スパコンは高すぎる」、GPU利用のHPCが本格化 - @IT
https://atmarkit.itm[...]
2023-06-21
[93]
웹사이트
Ian Buck {{!}} Research Projects
https://graphics.sta[...]
2023-05-30
[94]
웹사이트
Exclusive Interview: Nvidia's Ian Buck Talks GPGPU
https://www.tomshard[...]
2023-05-30
[95]
웹사이트
業界に痕跡を残して消えたメーカー CG業界を牽引したSGI (1/4)
https://ascii.jp/ele[...]
2023-05-30
[96]
웹사이트
Ray Tracing on Programmable Graphics Hardware
http://graphics.stan[...]
2023-05-30
[97]
웹사이트
2009年,本格始動するGPGPUの世界・前編~GPGPUって何?
https://www.4gamer.n[...]
Aetas Inc
2023-05-29
[98]
웹사이트
ビデオカードの品薄と価格高騰に振り回された1年、買い取り価格が購入時より高値になる事も ~ アキバのショップ店員が語る2021年 その2 ~
https://akiba-pc.wat[...]
株式会社インプレス
2023-05-30
[99]
논문
Gpuコンピューティングの動向と将来像
[100]
웹사이트
AMD Radeon™ R9シリーズ・グラフィックス・カード
http://www.amd.com/j[...]
[101]
웹사이트
AMD FirePro™ S9170サーバーGPU
http://www.amd.com/j[...]
[102]
웹사이트
GPGPUのキラーアプリケーションは「グラフィックス」 - @IT
https://atmarkit.itm[...]
[103]
웹사이트
4Gamer.net ― OpenGLはDirectX 11を超え,OpenGL ESは据え置き型ゲーム機と同等以上に。Khronosの最新動向レポート
https://www.4gamer.n[...]
[104]
웹사이트
PGI GPU用アクセラレータコンパイラ 情報サイト - GPU / GPGPU / CUDA 対応、CUDA Fortran
http://www.softek.co[...]
[105]
웹사이트
これからの並列計算のためのGPGPU連載講座(V) 疎行列ベクトル積を題材としたCUDA最適化プログラミング
http://www.cc.u-toky[...]
[106]
논문
Accelerating large graph algorithms on the GPU using CUDA
http://citeseerx.ist[...]
Springer Berlin Heidelberg
[107]
웹사이트
【レビュー】549ドルのGeForce GTX TITAN対抗馬「Radeon R9 290X」をベンチマーク - PC Watch
https://pc.watch.imp[...]
[108]
웹사이트
【4Gamer.net】[特集]「GeForce 8800」のポイントをブロックダイアグラムから探る
https://www.4gamer.n[...]
[109]
웹사이트
【4Gamer.net】 - 西川善司の3Dゲームエクスタシー - ATI, Radeon X1000シリーズ発表でSM3.0世代に突入
https://www.4gamer.n[...]
[110]
웹사이트
【後藤弘茂のWeekly海外ニュース】GTCの目玉の1つ「Tegra 4/4i」のCPUアーキテクチャ
https://pc.watch.imp[...]
[111]
웹사이트
Kepler GPUアーキテクチャとプログラム最適化 (2) GPUはどうやって命令を処理しているのか | マイナビニュース
https://news.mynavi.[...]
[112]
웹사이트
【後藤弘茂のWeekly海外ニュース】PlayStation 4で採用されたAMDのGCNアーキテクチャ
https://pc.watch.imp[...]
[113]
웹사이트
コンピュータアーキテクチャの話 (322) GPUが用いるメモリのアクセス時間の短縮方法 | マイナビニュース
http://news.mynavi.j[...]
[114]
웹사이트
第5回 GPUの構造 | G-DEP
http://www.gdep.jp/p[...]
[115]
웹사이트
4Gamer.net ― 「GeForce GTX TITAN」登場。500円玉より大きなモンスターGPUの“性能以外”を徹底解説
https://www.4gamer.n[...]
[116]
웹사이트
AMD、R580コアをベースにしたHPC専用プロセッサ「Stream Processor」 | マイナビニュース
https://web.archive.[...]
[117]
웹사이트
AMDのGPGPU戦略は新章へ - ATI Streamの展望、DirectX Compute Shaderの衝撃 (1) Radeon HD 4000シリーズでネイティブGPGPU | マイナビニュース
https://news.mynavi.[...]
[118]
웹사이트
AMD's RV670 does double-precision at half the speed | TG Daily
http://www.tgdaily.c[...]
[119]
웹사이트
AMD FireStream™9250 - FirePro Server - 製品情報 - 株式会社エーキューブ
http://www.acube-cor[...]
[120]
웹사이트
AMD FirePro S9100 - FirePro Server - 製品情報 - 株式会社エーキューブ
http://www.acube-cor[...]
[121]
웹사이트
AMD FirePro S9150 - FirePro Server - 製品情報 - 株式会社エーキューブ
http://www.acube-cor[...]
[122]
웹사이트
NVIDIA Tesla C1060 - 株式会社 日本コンピューティングシステム
http://www.jcsn.co.j[...]
[123]
웹사이트
Tesla C2050 / C2070 GPUコンピューティングプロセッサ
http://www.nvidia.co[...]
[124]
웹사이트
NVIDIA TESLA C2050 - 株式会社 エルザ ジャパン
http://www.elsa-jp.c[...]
[125]
웹사이트
4Gamer.net ― NVIDIA,Keplerベースの新世代Teslaを発表。「GK110」コア採用の「Tesla K20」が年内に登場予定
https://www.4gamer.n[...]
[126]
웹사이트
NVIDIA Tesla K20 | 株式会社 エルザ ジャパン
http://www.elsa-jp.c[...]
[127]
웹사이트
NVIDIA、最上位GPUアクセラレータ「Tesla K40」を発表 | マイナビニュース
https://news.mynavi.[...]
[128]
웹사이트
SC14 - NVIDIAが最上位の科学技術計算用GPU「Tesla K80」を発表 | マイナビニュース
https://news.mynavi.[...]
[129]
웹사이트
サーバー用のGPUアクセラレーター、Tesla K40 と Tesla K80
http://www.nvidia.co[...]
NVIDIA Corporation
2015-10-28
[130]
웹사이트
西川善司の3DGE:GeForce RTX 30シリーズのアーキテクチャを探る。CUDA Coreの増量とRT Coreの高性能化に注目だ
https://www.4gamer.n[...]
2023-06-21
[131]
웹사이트
【レビュー】NVIDIA GeForce GTX TITAN Xを試す - Maxwell世代の新フラグシップGPUの実力を探る (13) ベンチマーク結果「Basemark CL v1.1」
https://news.mynavi.[...]
2015-11-26
[132]
웹사이트
【後藤弘茂のWeekly海外ニュース】コンピューティングとグラフィックスへ分化するNVIDIA GPU - PC Watch
https://pc.watch.imp[...]
2023-06-20
[133]
웹사이트
後藤弘茂のWeekly海外ニュース: GeForce GTX 280の倍精度浮動小数点演算
https://pc.watch.imp[...]
[134]
웹사이트
4Gamer.net ― AMD,世界初のDX11 GPU「ATI Radeon HD 5800」を発表。HD 4800の大幅な進化形
https://www.4gamer.n[...]
[135]
웹사이트
4Gamer.net ― 「ATI Radeon HD 5800」徹底分析(3)~3Dグラフィックスに特化したAMD
https://www.4gamer.n[...]
[136]
웹사이트
科学技術計算向け演算能力が引き上げられたGPUアーキテクチャ「Fermi」 (2) 科学技術計算向けのさまざまな工夫 | マイナビニュース
https://news.mynavi.[...]
[137]
웹사이트
GTC 2014 - GPUの浮動小数点演算の精度:理論と実践(前編) | マイナビニュース
https://news.mynavi.[...]
[138]
뉴스
ハイブリッドアーキテクチャでスパコン市場に挑むNVIDIA
https://pc.watch.imp[...]
PC Watch, Impress社
2012-04-16
[139]
웹사이트
How to Access Global Memory Efficiently in CUDA C/C++ Kernels | Parallel Forall
http://devblogs.nvid[...]
[140]
웹사이트
【後藤弘茂のWeekly海外ニュース】NVIDIA新世代GPU「Maxwell」のSMアーキテクチャ - PC Watch
https://pc.watch.imp[...]
[141]
뉴스
【後藤弘茂のWeekly海外ニュース】 AMDの新GPUアーキテクチャ「Graphics Core Next」の秘密
https://pc.watch.imp[...]
PC Watch
[142]
웹사이트
NVIDIA GPUの構造とCUDAスレッディングモデル
http://www.softek.co[...]
[143]
웹사이트
Variable Syntax (Windows)
https://msdn.microso[...]
[144]
웹사이트
tile_static Keyword
https://msdn.microso[...]
[145]
웹사이트
高速演算記 第25回 「Kepler解説その2 〜Kepler世代の新機能〜」 | G-DEP
http://www.gdep.jp/c[...]
G-DEP
[146]
웹사이트
Using Shared Memory in CUDA C/C++ | Parallel Forall
http://devblogs.nvid[...]
Parallel Forall
[147]
뉴스
コンピュータアーキテクチャの話 (336) CPUと異なるGPUにおけるコアと2次キャッシュの関係性 | マイナビニュース
http://news.mynavi.j[...]
マイナビニュース
[148]
뉴스
コンピュータアーキテクチャの話 (337) 実はそれほど速くはないGPUのメモリアクセス時間 | マイナビニュース
http://news.mynavi.j[...]
マイナビニュース
[149]
뉴스
「Skylake-K」とはいかなるCPUなのか。「Core i7-6700K」ベンチマークで新世代マイクロアーキテクチャの実態を探る - 4Gamer.net
https://www.4gamer.n[...]
4Gamer.net
[150]
뉴스
【1カ月集中講座】骨まで理解するPCアーキテクチャ(GPU編) 第4回 ~GPGPU性能引き上げのカギとなるCPUとGPUの連携 - PC Watch
https://pc.watch.imp[...]
PC Watch
[151]
뉴스
【後藤弘茂のWeekly海外ニュース】NVIDIAの次期GPU「Pascal」の概要 - PC Watch
https://pc.watch.imp[...]
PC Watch
[152]
뉴스
[GTC 2016]西川善司の3DGE:Teslaとして登場した新世代GPU「Pascal」,その詳細に迫る - 4Gamer.net
https://www.4gamer.n[...]
4Gamer.net
[153]
간행물
"» アクセラレータプログラミングの未来"
http://www.hpcwire.j[...]
[154]
뉴스
4Gamer.net ― 見えてきたAMDの次世代GPUアーキテクチャ。なぜAMDはVLIWを捨てるのか
https://www.4gamer.n[...]
4Gamer.net
[155]
웹사이트
レンダリング手法について-CPU or GPU? | KeyShot™総合サイト
http://keyshot.info/[...]
KeyShot™総合サイト
[156]
웹사이트
cuBLAS - NVIDIA CUDA ZONE
https://developer.nv[...]
NVIDIA CUDA ZONE
[157]
웹사이트
cuFFT - NVIDIA CUDA ZONE
https://developer.nv[...]
NVIDIA CUDA ZONE
[158]
웹사이트
clMath - AMD
http://developer.amd[...]
AMD
[159]
웹사이트
Thrust - NVIDIA CUDA ZONE
https://developer.nv[...]
NVIDIA CUDA ZONE
[160]
웹사이트
Bolt C++ Template Library - AMD
http://developer.amd[...]
AMD
[161]
뉴스
スパコン最大の学会「SC13」に見る先端技術 (5) SC13 - CPU-GPU統一メモリを実現したCUDA 6(後編) | マイナビニュース
http://news.mynavi.j[...]
マイナビニュース
[162]
웹사이트
OpenCL* 1.2 の活用: インテル® プロセッサー・グラフィックスでバッファーコピーを最小限に抑えてパフォーマンスを向上する方法 | iSUS
http://www.isus.jp/a[...]
iSUS
[163]
웹사이트
NVIDIA CUDA 6.0 Unified Memory Performance | Acceleware Ltd.
http://www.accelewar[...]
Acceleware Ltd.
[164]
뉴스
【後藤弘茂のWeekly海外ニュース】AMD、新GPU「Tonga」がHSAの最終形であることを明らかに - PC Watch
https://pc.watch.imp[...]
PC Watch
[165]
간행물
"» コンパイラ、そしてもっと:アクセラレーター・プログラミング"
http://www.hpcwire.j[...]
[166]
웹사이트
KAKEN - GPUによるFFT計算の自動チューニング手法の研究(22680002) - 2011年度研究実績報告書
https://kaken.nii.ac[...]
[167]
뉴스
GPUとXeon Phi、どちらが計算処理アクセラレータに最適か? - 実際の実行性能を比較するワークショップを首都大学東京が開催 (4) アクセラレータの課題と問題点が語られたパネルディスカッション | マイナビニュース
https://news.mynavi.[...]
マイナビニュース
[168]
서적
HLSL シェーダーの魔導書 シェーディングの基礎からレイトレーシングまで
翔泳社
2021-06-09
[169]
뉴스
ベクトル型スパコンの存在意義――地球シミュレータのいま (1/2) - ITmedia エンタープライズ
https://www.itmedia.[...]
ITmedia エンタープライズ
[170]
간행물
"これからの並列計算のためのGPGPU連載講座(I) GPUとGPGPUの歴史と特徴"
http://www.cc.u-toky[...]
東京大学情報基盤センター
[171]
뉴스
SIGGRAPH 2005 - GPUをCPU的に活用するGPGPUの可能性 (5) GPGPU向けプログラミング言語の登場が始まる | マイナビニュース
https://web.archive.[...]
マイナビニュース
[172]
뉴스
S3、GPGPU用フォトレタッチソフト「S3FotoPro」
https://pc.watch.imp[...]
PC Watch
2008-10-20
[173]
뉴스
ペガシス、「TMPGEnc 4.0 XPress」の“CUDA”テクノロジー対応版を正式公開
https://forest.watch[...]
窓の杜
2008-10-30
[174]
뉴스
CyberLink、動画編集ソフト「PowerDirector 7」をCUDAに対応
https://pc.watch.imp[...]
PC Watch
2008-11-10
[175]
뉴스
LoiLo、GPGPU対応の高速動画編集ソフト
https://pc.watch.imp[...]
PC Watch
2008-10-17
[176]
웹사이트
4Gamer.net ― NVIDIA製GPUが「Photoshop」「After Effects」「Premiere Pro」の最新版「CS4」アクセラレーションをサポート。ムービーでその効果をチェック
https://www.4gamer.n[...]
[177]
웹사이트
アドビ、クリエイティブ製品の最新版「CS5」を5月28日に一斉発売
https://japan.cnet.c[...]
CNET Japan
2010-04-12
[178]
웹사이트
GPU changes (for CUDA and OpenGL) in After Effects CC (12.1) | After Effects region of interest
http://blogs.adobe.c[...]
[179]
웹사이트
GPUレイトレーシング | NVIDIA
http://www.nvidia.co[...]
[180]
웹사이트
[SIGGRAPH 2014]NVIDIAがゲーム向けのリアルタイム大局照明,IntelはHaswell用DX12ドライバのデモを一般展示セクションで披露 - 4Gamer.net
https://www.4gamer.n[...]
[181]
웹사이트
AMDは新GPU「Radeon Pro」を,NVIDIAは360度ビデオ用SDKをアピール。プロセッサメーカーによる「SIGGRAPH 2016」の展示をレポート - 4Gamer.net
https://www.4gamer.n[...]
[182]
웹사이트
Radeon ProRender Technology - AMD
http://developer.amd[...]
[183]
웹사이트
Doc:JA/2.6/Manual/Render/Cycles/GPU Rendering - BlenderWiki
http://wiki.blender.[...]
[184]
웹사이트
NVIDIA iray | NVIDIA
http://www.nvidia.co[...]
[185]
웹사이트
NVIDIA iray - Design Rendering with CUDA Parallel Processing | NVIDIA
http://www.nvidia.co[...]
[186]
웹사이트
NVIDIA Advanced Rendering: NVIDIA Iray
http://www.nvidia-ar[...]
[187]
웹사이트
Bitcoinマイニングはまさに軍拡競争、素人お断りの現状とは? - GIGAZINE
https://gigazine.net[...]
[188]
논문
Mapping computational concepts to GPUs
http://doi.acm.org/1[...]
ACM Press
2005-07-31
[189]
논문
Double precision on GPUs (Proceedings of ASIM 2005)
http://numod.ins.uni[...]
2005
[190]
웹인용
GPU Gems - Chapter 34, GPU Flow-Control Idioms
http://http.develope[...]
2009-07-02
[191]
논문
GPGPU survey paper
http://graphics.idav[...]
Computer Graphics Forum
2007
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com