라라비 (마이크로아키텍처)

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 프로젝트 상태 및 역사
- 2.1. 개발 중단 배경
- 2.2. MIC 아키텍처로의 계승
3. 경쟁 제품과의 비교
4. 내부 구성 (일본어 문서 기반)
5. 명령어 집합
6. 예비 성능 데이터
7. 공개 시연
참조

1. 개요

라라비는 인텔이 개발한 마이크로아키텍처로, 2009년 GPU 제품으로 출시될 예정이었으나 개발 지연으로 인해 소프트웨어 개발 플랫폼으로 변경되었다. 라라비는 CPU와 GPU의 하이브리드 형태를 띠며, x86 명령어 집합과 캐시 일관성을 지원하고, SIMD 벡터 장치와 텍스처 샘플링 하드웨어를 갖춘 것이 특징이다. 2010년에는 라라비 프로젝트가 종료되고, 라라비의 설계 요소를 계승한 인텔 MIC 아키텍처가 고성능 컴퓨팅을 위한 코프로세서로 개발되었다. 라라비는 엔비디아와 AMD의 GPU와 경쟁할 것으로 예상되었으며, CPU와의 차이점, 기존 GPU와의 차이점, 셀 광대역 엔진과의 비교 등 다양한 특징을 가지고 있다.

더 읽어볼만한 페이지

인텔 그래픽스 - 인텔 Xe
인텔 Xe는 저전력부터 고성능 컴퓨팅까지 다양한 시장을 목표로 하는 인텔의 GPU 아키텍처 제품군으로, Xe-LP, Xe-HPG, Xe-HP, Xe-HPC 등의 하위 아키텍처를 가지며 외장 그래픽 카드인 인텔 아크 시리즈와 내장 그래픽, 데이터 센터용 GPU 등에 활용된다.
인텔 그래픽스 - 인텔 GMA
인텔 GMA는 2004년부터 2010년까지 인텔 칩셋에 통합된 그래픽 코어 제품군으로, 인텔 익스트림 그래픽스와 인텔740 계열을 대체하며 다양한 모델과 기술적 사양을 갖추고 CPU 의존적인 구조에서 하드웨어 가속 기능을 강화하여 성능 개선을 시도했다.
그래픽 카드 - 매트록스 G200
매트록스 G200은 1990년대 후반 매트록스가 출시한 고급 2D 그래픽 가속기 시리즈로, 듀얼버스 아키텍처, 32비트 색상 지원, 트리리니어 밉맵 필터링 등의 혁신적인 기술을 통해 2D 그래픽 분야에서 강점을 유지하고 저전력 설계를 통해 시스템 안정성과 소음 감소에 기여했다.
그래픽 카드 - 인텔 Xe
인텔 Xe는 저전력부터 고성능 컴퓨팅까지 다양한 시장을 목표로 하는 인텔의 GPU 아키텍처 제품군으로, Xe-LP, Xe-HPG, Xe-HP, Xe-HPC 등의 하위 아키텍처를 가지며 외장 그래픽 카드인 인텔 아크 시리즈와 내장 그래픽, 데이터 센터용 GPU 등에 활용된다.
인텔의 마이크로프로세서 - 인텔 80386
인텔 80386은 1985년 출시된 x86 아키텍처의 32비트 마이크로프로세서로, 온칩 메모리 관리 장치, 3단계 파이프라인, 세 가지 동작 모드를 제공하며, 개인용 컴퓨터와 임베디드 시스템에 널리 사용되었지만 현재는 생산 및 지원이 중단되었고, 32비트 명령어 집합은 현대 x86 아키텍처의 기반이 되었다.
인텔의 마이크로프로세서 - 인텔 4004
인텔 4004는 1971년 인텔에서 출시된 세계 최초의 상용 마이크로프로세서 중 하나이며, 4비트 아키텍처를 기반으로 계산기 라인에 탑재하기 위해 개발되었고, 컴퓨터 소형화와 개인용 컴퓨터 시대에 기여했다.

라라비 (마이크로아키텍처)
기본 정보
라라비 아키텍처 다이어그램
개발사	인텔
종류	GPU (취소됨) 다중 코어 x86 코프로세서
출시일	취소됨
명령어 집합	x86 SIMD (벡터 처리 장치)
마이크로아키텍처	IA-32
상세 정보
코어 수	32 ~ 48
제조 공정	45 nm
특징	캐시 일관성을 유지하는 링 인터커넥트 512비트 벡터 처리 장치 멀티스레딩 텍스처 매핑 유닛 래스터화 유닛
사용 제품	소프트웨어 개발 플랫폼 고성능 컴퓨팅 카드
코드네임 및 파생 제품
코드네임	라라비
파생 제품	Knights Ferry Knights Corner Knights Landing Knights Mill

2. 프로젝트 상태 및 역사

라라비는 NVIDIA의 GeForce 시리즈나 AMD의 RADEON 시리즈와 같은 기존 GPU 시장에서 경쟁할 목적으로 개발되었다. 또한 가까운 미래에는 AMD Fusion과도 경쟁할 가능성이 있었다. 라라비는 기존 GPU처럼 고정된 파이프라인 대신, LRBni (Larrabee New Instruction, LNI)라고 불리는 100개 이상의 새로운 명령으로 확장된 x86 명령 집합을 실행하는 다수의 CPU 코어를 하나의 칩에 집적하는 방식으로 설계되었다.^[30] 이는 그래픽 처리뿐만 아니라 GPGPU와 유사하게 범용적인 데이터 병렬 처리에도 활용될 수 있도록 고안된 구조였다.^[31] 인텔은 이 칩이 스트림 프로세싱을 활용하는 3D 게임, 고해상도 동영상 처리, 고성능 컴퓨팅(HPC) 서버 등 다양한 분야에 사용될 것으로 기대했다.^[32]^[33]^[34]

2006년 12월 인텔 개발자 포럼에서는 라라비가 1.7~2.5 GHz로 작동하며, 16개 이상의 코어를 가질 것으로 예상되었다.^[35] Ars Technica는 라라비의 마이크로아키텍처가 펜티엄 MMX에 기반할 가능성을 제시하기도 했다.^[36] 인텔은 라라비와 같은 병렬 처리를 위한 프로그래밍 기술로 C 언어를 확장한 "Ct" 언어와 확장된 C/C++를 개발했다.^[30]^[37] 인텔은 2007년 당시 라라비 제품 출시를 2009년 후반 또는 2010년으로 예상했다.^[38]

그러나 개발 과정에서 지연이 발생하고 만족스러운 성능을 얻지 못하면서, GPU로서의 개발은 중단되었다.^[7]^[8]^[39] 이후 라라비 프로젝트는 고성능 컴퓨팅 분야로 방향을 전환했으나^[9], 최종적으로 GPU 소매 제품 출시 계획은 2010년 5월에 종료되었다.^[5] 라라비 프로젝트의 기술들은 이후 인텔 MIC 아키텍처 개발에 영향을 주었다.

2. 1. 개발 중단 배경

2009년 9월 23일, IDF 2009에서는 라라비 시제품 카드의 실제 시연이 이루어졌다. 이 시제품은 6+8핀 보조 전원으로 작동했으며 2슬롯 크기의 쿨러를 탑재했다.

그러나 2009년 12월 4일, 인텔은 1세대 라라비가 소비자용 GPU 제품으로 출시되지 않을 것이라고 공식 발표했다.^[7] 며칠 뒤인 12월 8일에는 개발 지연과 만족스러운 성능을 얻지 못했기 때문에 GPU로서의 개발을 중단한다고 밝혔으며, 대신 2010년에 소프트웨어 개발 플랫폼으로 출시될 예정이라고 덧붙였다.^[39]^[8]

이후 2010년 5월 25일, 인텔은 자사 블로그를 통해 라라비가 GPU가 아닌, Nvidia Tesla와 경쟁하는 고성능 컴퓨팅(HPC) 제품으로 출시될 것이라고 다시 한번 방향 전환을 알렸다.^[9] 결국 라라비 연구 프로젝트에서 직접 GPU 소매 제품을 생산하려던 계획은 2010년 5월에 공식적으로 종료되었다.^[5]

라라비 프로젝트에서 개발된 기술 중 상당수는 인텔 MIC 아키텍처로 이어졌다. 하지만 이 아키텍처는 그래픽 처리 기능 없이 고성능 컴퓨팅을 위한 코프로세서로 개발되었다. 프로토타입 카드인 나이츠 페리를 거쳐, 22nm 공정으로 제작된 생산 카드인 나이츠 코너가 2012년 이후 생산될 예정이었다.

2. 2. MIC 아키텍처로의 계승

2009년 12월 4일, 인텔은 1세대 라라비가 소비자용 GPU 제품으로 출시되지 않을 것이라고 공식 발표했다.^[7] 대신 그래픽 및 고성능 컴퓨팅(HPC) 개발 플랫폼으로 활용될 예정이었다. 이러한 전략 변경의 공식적인 이유는 하드웨어 및 소프트웨어 개발 지연 때문이었다.^[8] 이후 2010년 5월 25일, 인텔은 라라비가 GPU가 아닌, Nvidia Tesla와 경쟁할 HPC 제품으로 출시될 것이라고 다시 한번 밝혔다.^[9] 결국 라라비를 직접 GPU 소매 제품으로 만들려던 계획은 2010년 5월에 완전히 종료되었다.^[5]

라라비 프로젝트가 종료된 후, 인텔은 라라비 연구를 통해 얻은 기술과 경험을 바탕으로 인텔 MIC(Many Integrated Core) 아키텍처를 개발했다. 2010년에 발표된 MIC 아키텍처는 라라비 프로젝트의 많은 설계 요소를 계승했지만, 그래픽 처리 기능은 포함하지 않았다. 대신, HPC 분야에서 코프로세서 역할을 수행하도록 설계되었다.

2011년 9월, 인텔 개발자 포럼(IDF 2011)에서 인텔은 MIC 아키텍처 기반의 첫 번째 제품인 나이츠 페리(Knights Ferry)를 공개했다. 나이츠 페리는 'Aubrey Isle'이라는 코드명을 가진 칩으로, 32개의 코어를 집적한 프로토타입 형태였으며, 일부 연구자들에게 개발 플랫폼으로 제공되었다. MIC 아키텍처는 라라비 개발 과정에서 만들어진 'LRBni'(Larrabee New Instruction, LNI)라는 100개 이상의 새로운 명령어로 확장된 x86 명령 집합을 사용하며, 512-bit 너비의 벡터 실행 파이프라인을 갖추고 있다. 이는 기존 x86 기반 프로그램으로도 제어 가능한 고성능 병렬 처리를 목표로 했다.

인텔은 나이츠 페리를 통해 얻은 경험을 바탕으로, 22 nm 공정을 사용하여 50개 이상의 코어를 집적한 정식 제품 나이츠 코너(Knights Corner)의 개발 계획을 발표했다. 나이츠 코너는 이후 Xeon Phi라는 브랜드 명으로 출시되었다.

3. 경쟁 제품과의 비교

라라비는 출시되었다면 엔비디아의 지포스 시리즈나 AMD의 레이디언 시리즈와 같은 기존 GPU 제품들과 직접 경쟁했을 것으로 예상되었다. 또한, 그래픽 처리 외에도 GPGPU나 고성능 컴퓨팅 시장에서도 경쟁력을 가질 것으로 기대되었다. 이는 멀티 코어 CPU와 GPU의 특징을 결합한 하이브리드 아키텍처로, CPU처럼 캐시 일관성과 x86 아키텍처 호환성을 갖추면서도 GPU처럼 넓은 SIMD 벡터 유닛과 텍스처 샘플링 하드웨어를 탑재했다.

GPU로서 라라비는 게임 구동을 위해 Direct3D 및 OpenGL 기반의 전통적인 래스터화 방식 3차원 컴퓨터 그래픽스를 지원할 예정이었다. 이러한 하이브리드 특징 덕분에 GPGPU나 스트림 프로세싱 작업에도 적합하여, 게임 내 실시간 광선 추적이나 물리 처리^[49]는 물론, 슈퍼컴퓨터의 일부로서 과학 계산^[50] 등 다양한 활용 가능성을 제시했다.^[44]^[10]^[11] 실제로 드림웍스 애니메이션은 라라비를 활용하여 영화 제작의 속도와 유연성을 크게 향상시킬 계획을 밝히기도 했다.^[51]

라라비의 초기 발표는 경쟁사들의 비판을 받기도 했다. 엔비디아는 NVISION 08 행사에서 라라비 아키텍처가 "2006년 수준의 GPU 같다"고 평가절하했다.^[52]^[12] 하지만 2009년 6월, 인텔은 라라비 시제품이 당시 고성능 그래픽 카드였던 엔비디아 지포스 GTX 285와 동등한 성능을 보인다고 주장했다.^[53]^[13] 같은 해 11월, 인텔의 CTO였던 저스틴 래트너는 슈퍼컴퓨팅 2009 컨퍼런스에서 오버클럭된 라라비 프로세서가 1테라플롭스 이상의 성능을 기록하는 것을 시연하며 단일 칩 최초의 테라플롭스 돌파라고 주장했다.^[3] 그러나 이 성능은 당시 경쟁 그래픽 카드의 약 5분의 1 수준에 불과했고, 결국 인텔은 2009년 12월 4일, 라라비를 독립적인 그래픽 카드 제품으로 출시하려던 계획을 취소했다.^[3]

3. 1. 기존 GPU와의 차이점

라라비는 출시 당시 시장에 나와 있던 엔비디아의 지포스 200 시리즈나 AMD(당시 ATI)의 라데온 4000 시리즈 같은 외장 GPU와 비교하여 다음과 같은 세 가지 주요한 차이점을 가질 예정이었다.^[54]^[15]

x86 명령어 집합 사용: 라라비는 범용 CPU에서 널리 사용되는 x86 명령어 집합을 기반으로, 라라비 고유의 확장 명령어를 추가하여 사용할 계획이었다. 이는 기존 GPU들이 자체적인 특수 명령어 세트를 사용하는 것과 대조된다.^[15]^[30]
캐시 일관성 지원: 라라비의 모든 코어는 캐시 일관성을 유지하도록 설계되었다. 이는 멀티 코어 CPU와 유사한 특징으로, 여러 코어가 데이터를 공유하고 동기화하는 작업을 더 쉽게 만들어 프로그래밍 복잡성을 줄일 수 있다.^[15]
소프트웨어 기반 처리: 기존 GPU들이 Z-버퍼링, 클리핑, 블렌딩 같은 특정 그래픽 연산을 위한 전용 하드웨어 유닛을 많이 탑재한 것과 달리, 라라비는 이러한 특화된 하드웨어를 최소화하고 타일 기반 렌더링 방식을 사용하여 소프트웨어적으로 처리하도록 설계되었다.^[15]

인텔에 따르면, 라라비는 완전히 프로그래밍 가능한 파이프라인을 갖춘 반면, 당시 세대의 그래픽 카드는 부분적으로만 프로그래밍이 가능했다.

이러한 구조적 차이점들은 라라비가 기존 GPU보다 훨씬 높은 유연성을 갖도록 만들었다. 개발자들은 하드웨어 제약에 덜 얽매이고 소프트웨어를 통해 더 다양한 렌더링 기법이나 연산 방식을 구현할 수 있게 되어, 게임이나 다른 3차원 그래픽 응용 프로그램에서 더 새롭고 차별화된 시각 효과를 구현할 잠재력을 가졌다. 인텔은 SIGGRAPH 2008 학회 발표 논문에서 라라비의 유연성을 활용하여 당시 GPU로는 구현하기 어려웠던 여러 고급 렌더링 기능들을 시연하거나 구현 가능성을 제시했다. 여기에는 렌더 타겟 읽기(Render Target Read), 순서 독립 투명성(Order-Independent Transparency), 불규칙 섀도 매핑(Irregular Shadow Mapping), 그리고 실시간 광선 추적(Ray Tracing) 등이 포함되었다.^[54]^[15]

하지만 라라비가 실제 제품으로 출시되기 전에 등장한 ATI의 라데온 HD 5000 시리즈나 엔비디아의 지포스 400 시리즈와 같은 후속 GPU들은 DirectCompute나 OpenCL 같은 표준 API를 통해 범용 컴퓨팅 기능을 크게 강화했다. 또한 엔비디아의 독자적인 CUDA 기술 역시 GPU의 프로그래밍 유연성을 높이는 데 기여하며, 결과적으로 라라비가 목표했던 기능 중 상당 부분을 기존 GPU 아키텍처의 확장으로도 구현할 수 있게 되었다.

3. 2. CPU와의 차이점

라라비의 x86 프로세서 코어는 인텔 코어 2나 인텔 코어 i7 같은 당시 인텔 CPU의 코어와 여러 면에서 달랐다.^[14]

기반 설계 및 실행 방식: 라라비 코어는 임베디드 시스템용으로 사용되던 상대적으로 단순한 P54C 펜티엄 설계를 기반으로 했다.^[55]^[14] 이 코어는 슈퍼스칼라 구조는 가졌지만, 코어 2나 i7과는 달리 비순차적 실행(Out-of-order execution) 기능은 포함하지 않았다.^[55]^[14] 대신 x86-64 지원 등 현대적인 기능이 추가됐는데, 이는 아톰 프로세서의 본넬 마이크로아키텍처와 유사한 접근이었다.^[54]^[15] 순차적 실행(In-order execution) 방식은 개별 코어의 성능은 낮지만 코어 크기를 줄여 칩 하나에 더 많은 코어를 집적할 수 있게 하여 전체 처리량을 높이는 것을 목표로 했다. 또한 실행 흐름 예측이 상대적으로 단순하여 컴파일러 단계에서 명령어 및 작업 스케줄링 최적화가 용이하다는 장점이 있었다.^[55]^[14]

벡터 처리 능력: 각 라라비 코어는 512비트 벡터 처리 유닛을 탑재해, 한 번에 16개의 단정밀도 부동소수점 연산을 처리할 수 있었다. 이는 당시 대부분의 x86 프로세서에 탑재되었던 SSE 유닛보다 4배 큰 규모였다. 또한, 흩뿌리기/모으기(Scatter/gather) 명령어와 벡터 연산을 효율적으로 제어하기 위한 마스크 레지스터 같은 기능을 추가하여 벡터 유닛의 활용성을 높였다. 라라비의 높은 연산 능력은 주로 이 강력한 벡터 유닛에서 비롯되었다.^[54]^[15]

특수 하드웨어: 그래픽 처리를 위한 주요 고정 기능 유닛으로 텍스처 샘플링 유닛이 포함됐다. 이 유닛은 삼중선형 및 이방성 필터링, 텍스처 압축 해제와 같은 기능을 하드웨어적으로 처리했다.^[54]^[15]

내부 통신 및 캐시: 코어 간 및 메모리와의 통신에는 1024비트(양방향 각 512비트) 링 버스가 사용됐다.^[56]^[15] 이 버스는 탑재되는 코어 수(16개 이상 또는 미만)에 따라 두 가지 모드로 구성될 수 있게 설계됐다.^[56]^[16] 또한, 데이터 스트리밍과 같이 캐시 재사용률이 낮은 작업 시 캐시 스래싱을 줄이기 위한 명시적 캐시 제어 명령과 L1 또는 L2 캐시로 데이터를 미리 읽어오는 명시적 프리페칭(explicit prefetching) 기능을 지원했다.^[15]

멀티스레딩: 각 코어는 4개의 프로세서 레지스터 세트를 이용하여 4-way 인터리브 멀티스레딩(Interleaved multithreading)을 지원했다. 이를 통해 단일 코어에서 여러 스레드를 동시에 처리하여 효율성을 높이고자 했다.^[15]

이론적으로 라라비의 x86 코어는 기존 PC 소프트웨어나 운영체제를 실행할 수 있었다. 그러나 라라비 기반의 그래픽 카드는 일반적인 PC 마더보드가 제공하는 모든 기능을 포함하지는 않을 것이기에, 기존 운영체제나 응용 프로그램을 수정 없이 실행하기는 어려웠을 것으로 예상된다. 라라비 아키텍처를 사용한 다른 버전의 프로세서가 퀵패스 인터페이스를 통해 마더보드 CPU 소켓에 장착될 가능성도 제기됐으나,^[17] 인텔은 이에 대한 구체적인 계획을 발표하지 않았다.

라라비용으로 제공된 기본 C/C++ 컴파일러에는 자동 벡터화 기능이 포함되어 있어, 많은 응용 프로그램이 단순히 재컴파일하는 것만으로도 라라비에서 실행될 수 있었다. 하지만 최대 효율성을 얻기 위해서는 C++ 벡터 내장 함수(intrinsics)를 사용하거나 인라인 라라비 어셈블리 코드를 직접 작성하는 등 코드 최적화가 필요할 것으로 예상됐다.^[15] 다만, 다른 GPGPU 기술과 마찬가지로, 모든 종류의 소프트웨어가 라라비의 벡터 처리 유닛을 활용하여 성능 향상을 얻을 수 있는 것은 아니었다. 한편, 일부 기술 저널리즘 사이트에서는 라라비의 그래픽 기능 일부가 이후 하스웰 마이크로아키텍처 기반 CPU에 통합될 예정이었다고 주장하기도 했다.^[18]

3. 3. 셀 광대역 엔진(Cell Broadband Engine)과의 비교

라라비는 작고 단순한 여러 개의 코어를 사용하는 철학은 Cell 프로세서의 아이디어와 유사했다. 또한, 코어 간 통신을 위한 고대역폭 링 버스 사용과 같은 몇 가지 공통점이 있었다.^[15] 그러나 라라비의 프로그래밍을 더 간단하게 만들 것으로 예상되는 구현 방식에는 많은 중요한 차이점이 있었다.

Cell 프로세서는 여러 개의 작은 프로세서를 제어하는 하나의 주 프로세서를 포함한다. 또한, 주 프로세서는 운영 체제를 실행할 수 있다. 반면, 라라비의 모든 코어는 동일하며, 라라비는 OS를 실행하지 않을 것으로 예상되었다.
Cell의 각 컴퓨팅 코어(SPE)는 로컬 저장소를 가지고 있으며, DRAM에 대한 모든 접근에 명시적인 DMA 연산이 사용된다. DRAM에 대한 일반적인 읽기 및 쓰기는 허용되지 않는다. 라라비에서는 모든 온칩 및 오프칩 메모리가 자동으로 관리되는 일관성 있는 캐시 계층 구조에 따라 관리되므로, 코어는 표준 복사(MOV) 명령어를 통해 사실상 균일한 메모리 공간을 공유했다. 라라비 코어는 각각 256KB의 로컬 L2 캐시를 가지고 있었고, 다른 L2 세그먼트에 적중하는 접근은 접근하는 데 더 오래 걸린다.^[15]
위에 언급된 캐시 일관성 때문에, 라라비에서 실행되는 각 프로그램은 기존의 범용 CPU와 마찬가지로 사실상 큰 선형 메모리를 가지고 있었다; 반면 Cell용 애플리케이션은 각 SPE와 관련된 로컬 저장소의 제한된 메모리 풋프린트를 고려하여 프로그래밍해야 하지만(자세한 내용은 이 기사 참조) 이론적으로 더 높은 대역폭을 가졌다. 그러나 로컬 L2에 접근하는 것이 더 빠르기 때문에 Cell 스타일의 프로그래밍 방식을 사용함으로써 이점을 얻을 수 있다.
Cell은 온칩 로컬 메모리로 데이터를 전송하기 위해 DMA를 사용하는데, 이는 로컬 메모리에 저장된 오버레이를 명시적으로 유지하여 메모리를 코어에 더 가깝게 가져오고 접근 지연 시간을 줄일 수 있지만, 주 메모리와의 일관성을 유지하기 위한 추가적인 노력이 필요하다; 반면 라라비는 캐시 조작을 위한 특수 명령(특히 캐시 제거 힌트 및 사전 가져오기 명령)을 사용하여 일관성 있는 캐시를 사용했는데, 이는 캐시 누락 및 제거 페널티를 완화하고 캐시 오염을 줄이는 데 기여했지만(예: 렌더링 파이프라인 및 기타 스트림형 계산의 경우) 캐시 일관성을 유지하기 위한 추가 트래픽 및 오버헤드가 발생했다.^[15]
Cell의 각 컴퓨팅 코어는 한 번에 하나의 스레드를 순차적으로 실행한다. 라라비의 코어는 최대 4개의 스레드를 실행했지만, 한 번에 하나만 실행했다. 라라비의 하이퍼스레딩은 순차적 실행에 내재된 지연 시간을 숨기는 데 도움이 되었다.

3. 4. 인텔 GMA와의 비교

인텔은 인텔 GMA라는 이름으로 GPU 제품군을 판매하고 있다. 이 칩들은 별도로 판매되지 않고 마더보드에 통합되는 형태이다.^[19] 저렴한 가격과 낮은 소모 전력이라는 장점 덕분에 작은 랩탑이나 복잡하지 않은 연산 작업에 주로 사용된다.^[57]^[19] 하지만 3차원 그래픽 처리 능력 면에서는 엔비디아나 AMD의 고성능 GPU와 경쟁하기에는 부족하여, 최고급 게임 시장이나 HPC 시장, 주요 비디오 게임 콘솔 시장에서는 경쟁력을 갖기 어려웠다.^[57]^[19]

반면, 라라비는 마더보드와 분리된 독립된 GPU로 개발되었으며, 출시되었다면 별도로 판매될 예정이었다.^[57]^[19] 인텔은 라라비가 충분한 성능을 갖춰 차세대 비디오 게임 콘솔에도 탑재될 수 있을 것으로 기대했다.^[57]^[20]

라라비 개발팀은 기존의 인텔 GMA 개발팀과는 별도로 운영되었다.^[58]^[21] 하드웨어 개발은 인텔의 오레건주 힐스보로 설계팀이 맡았는데, 이 팀은 네할렘 마이크로아키텍처 개발 이력이 있다.^[58]^[21] 소프트웨어와 드라이버는 새로 구성된 팀이 개발했으며, 특히 3차원 그래픽 스택은 RAD Game Tools에서 개발을 담당했다.^[58]^[21] 또한, 인텔 비주얼 컴퓨팅 연구소(IVCI)는 라라비 기반 제품에 적용될 수 있는 기초 및 응용 기술 연구를 지원했다.^[59]^[22]

4. 내부 구성 (일본어 문서 기반)

초대 Larrabee 제품의 구성으로 알려진 내용은 다음과 같다.

주요 구성 요소는 다음과 같다.

링 네트워크: 16개의 CPU 코어 블록과 주변 회로를 연결하는 고속 양방향 네트워크이다. 데이터 전송 및 코히어런트 제어에 사용된다.
CPU 코어 블록: 펜티엄 P54C 수준의 스칼라 연산부와 16-wide 벡터 유닛, 레벨 1 및 레벨 2 캐시 메모리로 구성된 동질적인 코어이다^[40].
고정 기능 로직: 텍스처 필터를 포함하며, 이는 레벨 2 캐시를 통해 입출력을 수행한다.
입출력 인터페이스: 외부 장치와의 연결을 위한 시스템 인터페이스부와 디스플레이 인터페이스부를 갖춘다.

4. 1. 링 네트워크

16개의 CPU 코어 블록과 주변 회로가 다이 내의 고속 양방향 링 네트워크로 연결되어 데이터의 외부와의 송수신, 레벨 2 캐시의 코히어런트 제어에 사용된다. 각각 편방향으로 512비트 폭의 전송로를 갖는다. 인접 유닛과의 전송은 2 클럭마다 이루어진다.

4. 2. CPU 코어 블록

펜티엄(Pentium) P54C 수준의 2개 명령 동시 발행이 가능한 인오더(in-order) 실행 방식의 스칼라 연산부를 기반으로 한다. 여기에 '벡터 유닛'이라고 불리는 16개의 병렬 연산 처리부를 추가하여 단일 명령 처리로 동질적인 CPU 코어^[40]를 구성한다.

이 스칼라 및 벡터 연산부 외에도, 지역 명령 캐시 32KB와 데이터 캐시 32KB를 합쳐 총 64KB의 레벨 1 캐시를 갖추고 있으며, 256KB의 레벨 2 캐시도 포함한다. 레벨 1 캐시는 명령용과 데이터용 각각 스레드당 16KB씩 할당되어 4웨이 멀티스레딩을 지원하며, 이 때문에 총 용량은 각각 64KB가 된다. 명령 캐시에서 인오더 실행 방식의 명령어 디코더(instruction decoder)로 명령이 전달되고, 내부적으로는 2개의 스칼라 연산부와 16-wide SIMD형 벡터 연산부가 제어된다.

벡터 연산을 위한 레지스터는 스레드당 32비트짜리 16개, 즉 총 512비트 길이의 레지스터 32개 분량에 접근할 수 있다. 4웨이 멀티스레딩을 지원하므로 전체적으로는 128개 분량의 벡터 레지스터를 가진다.

레벨 1 캐시와 레벨 2 캐시 모두 프리페치(prefetch) 기능을 지원한다.

링 네트워크 인터페이스부는 외부 메모리 및 다른 코어와의 통신을 담당한다.

이러한 구성 요소들이 모여 하나의 CPU 코어 블록을 이룬다.

4. 3. 고정 기능 로직

텍스처 필터를 갖추고 있다. 텍스처 필터는 레벨 2 캐시를 경유하여 입출력을 수행한다.

4. 4. 입출력 인터페이스

외부와의 입출력에는 시스템 인터페이스부와 디스플레이 인터페이스부를 갖는다.

5. 명령어 집합

라라비 (마이크로아키텍처)용 명령어 집합은 펜티엄(P54C) 세대의 완전한 x86 명령어 집합에 더하여, 32비트 정수 연산, 32비트 및 64비트 부동소수점 연산, 비트 카운트, 비트 스캔, 캐시 제어와 같은 100가지 이상의 새로운 명령이 추가되었다.^[41]

6. 예비 성능 데이터

인텔의 SIGGRAPH 2008년 논문은 라라비의 예상 성능에 대한 사이클 정확 시뮬레이션(메모리, 캐시 및 텍스처 유닛의 제한 사항 포함) 결과를 설명했다.^[54]^[15] 시뮬레이션 결과는 여러 인기 게임에서 1600×1200 해상도로 초당 60프레임을 유지하는 데 필요한 1 GHz 라라비 코어 수를 보여준다.

응용 프로그램	앤티에일리어싱	필요 라라비 코어 수
기어스 오브 워	없음	25
F.E.A.R.	4배	25
하프라이프 2: 에피소드 2	4배	10

인텔은 라라비가 1 GHz보다 더 빠르게 작동할 가능성이 있다고 언급했으며, 따라서 위 표의 수치는 실제 코어라기보다는 가상적인 시간 분할(time slice)을 나타낼 수 있다.^[60] 다른 그래프에 따르면, 이러한 게임에서의 성능은 코어 수가 최대 32개까지 늘어남에 따라 거의 선형적으로 증가한다. 하지만 48개 코어에서는 선형 관계에서 예측되는 성능의 90% 수준으로 성능 증가폭이 감소했다.^[23]

2008년 SIGGRAPH 논문의 벤치마킹 결과로, 처리 코어 수에 대한 예측 성능이 대략 선형 함수임을 보여준다.

2007년 6월 ''PC Watch'' 기사에 따르면, 첫 번째 라라비 칩은 32개의 x86 프로세서 코어를 탑재하고 45 나노미터 공정으로 제조되어 2009년 하반기에 출시될 예정이었다. 반도체 소자 제조 수율 문제로 인해 일부 코어에 결함이 있는 칩은 24코어 버전으로 판매될 계획이었다. 또한 2010년 후반에는 32 나노미터 공정으로 전환하여 48코어 버전 출시도 가능할 것으로 예상되었다.^[61]^[24]

기술 뉴스 사이트 Fudzilla는 라라비가 300와트의 열 설계 전력(TDP)을 가질 것이며, 12층 PCB 기판과 당시 최고급 엔비디아 카드 수준의 냉각 시스템을 사용하고, GDDR5 메모리를 탑재할 것이라고 보도했다. 또한 단정밀도 연산에서 2 테라플롭스(TFLOPS)의 성능을 갖출 것으로 예상했는데, 이는 다음과 같이 계산될 수 있다 (이론적인 최대 성능):

32개 코어 × 코어당 16개 단정밀도 부동 소수점 SIMD 연산 × 2 FLOP (융합 곱셈-덧셈) × 2 GHz = 2 TFLOPS (이론치)

7. 공개 시연

라라비의 광선 추적 기능에 대한 공개 시연은 2009년 9월 22일 샌프란시스코에서 열린 인텔 개발자 포럼에서 진행되었다. Enemy Territory: Quake Wars의 실험적인 버전인 Quake Wars: 광선 추적이 실시간으로 시연되었다. 이 장면에는 배와 몇몇 비행 물체와 같은 주변 물체를 정확하게 반사하는 광선 추적된 수면이 포함되어 있었다.^[25]^[26]^[27]

두 번째 데모는 2009년 11월 17일 포틀랜드에서 열린 SC09 컨퍼런스에서 인텔 CTO 저스틴 래트너의 기조 연설 중에 진행되었다. 라라비 카드는 SGEMM 4Kx4K 계산에서 1006 GFLOPS를 달성할 수 있었다.

라라비 카드의 엔지니어링 샘플은 2018년 5월 14일에 게시된 비디오에서 라이너스 세바스찬에 의해 입수되어 검토되었다. 그는 마더보드가 POST 코드 D6를 표시하면서, 카드에서 비디오 출력을 할 수 없었다.^[28] 2022년에는 또 다른 카드가 유튜버 로만 "데르8아워" 하퉁에 의해 시연되었는데, 이는 작동하여 디스플레이 신호를 출력하는 것으로 나타났지만 드라이버가 없어 3D 가속을 할 수 없었다.^[29]

참조

_[1] 웹사이트 SMACNI to AVX512 the life cycle of an instruction set http://tomforsyth100[...] 2019-11
_[2] 웹사이트 Tom Forsyth on Naming of Larrabee Instruction Set https://twitter.com/[...] 2020-12-22
_[3] 웹사이트 Intel: Initial Larrabee graphics chip canceled http://www.cnet.com/[...] CBS Interactive 2009-12-04
_[4] 웹사이트 Intel kills consumer Larrabee, focuses on future variants - SemiAccurate http://www.semiaccur[...] 2009-12-04
_[5] 웹사이트 Intel Kills Larrabee GPU, Will Not Bring a Discrete Graphics Product to Market http://www.anandtech[...] 2010-05-25
_[6] 웹사이트 Intel's First (Modern) Discrete GPU Set For 2020 https://www.anandtec[...] 2018-06-13
_[7] 웹사이트 Intel's Larrabee GPU put on ice, more news to come in 2010 https://arstechnica.[...] Condé Nast 2009-12-05
_[8] 웹사이트 Intel Cancels Larrabee Retail Products, Larrabee Project Lives On http://www.anandtech[...]
_[9] 웹사이트 Blogs@Intel - Intel Blogs http://blogs.intel.c[...]
_[10] 웹사이트 Intel picks up gaming physics engine for forthcoming GPU product https://arstechnica.[...] Ars Technica 2007-09-17
_[11] 웹사이트 Clearing up the confusion over Intel's Larrabee https://arstechnica.[...] Ars Technica 2007-04-27
_[12] 웹사이트 Larrabee performance--beyond the sound bite http://news.cnet.com[...]
_[13] 웹사이트 Intel's 'Larrabee' on Par With GeForce GTX 285 http://www.tomshardw[...] 2009-06-02
_[14] 웹사이트 Intel's Larrabee GPU based on secret Pentagon tech, sorta [Updated] https://arstechnica.[...] Ars Technica 2008-07-09
_[15] 간행물 Larrabee: A Many-Core x86 Architecture for Visual Computing http://download-soft[...] 2008-08
_[16] 웹사이트 Intel's Larrabee--more and less than meets the eye http://news.cnet.com[...] CNET
_[17] 웹사이트 Clearing up the confusion over Intel's Larrabee, part II https://arstechnica.[...] Ars Technica 2007-06-05
_[18] 웹사이트 Intel to use Larrabee graphics on CPUs - SemiAccurate http://www.semiaccur[...] 2009-08-19
_[19] 웹사이트 Intel's Larrabee Shaping Up For Next-Gen Consoles? http://www.totalvide[...] 2008-08-13
_[20] 웹사이트 Intel Will Design PlayStation 4 GPU http://www.theinquir[...] 2009-02-05
_[21] 웹사이트 Intel's Larrabee Architecture Disclosure: A Calculated First Move http://www.anandtech[...]
_[22] 뉴스 Intel Visual Computing Institute Opens, Will Spur "Larrabee" Development http://www.dailytech[...] DailyTech 2009-05-13
_[23] 웹사이트 Intel's 'Larrabee' to {{sic|Sha|keup|nolink=y}} AMD, Nvidia http://www.tomshardw[...] Tom's Hardware 2008-08-20
_[24] 웹사이트 Intel is promoting the 32 core CPU "Larrabee" http://pc.watch.impr[...] pc.watch.impress.co.jp
_[25] Citation Ray Traced Quake Wars https://www.geeks3d.[...] 2008-06-12
_[26] 웹사이트 Light It Up! Quake Wars* Gets Ray Traced http://isdlibrary.in[...]
_[27] 웹사이트 Quake Wars: Ray Traced https://www.qwrt.de/[...] 2008-08-18
_[28] Citation WE GOT INTEL'S PROTOTYPE GRAPHICS CARD!! https://www.youtube.[...] 2018-05-14
_[29] Citation 'HW-Legends #13: Intel Canceled This Project - The most expensive Card in my Collection (Larrabee) ' https://www.youtube.[...] 2022-12-24
_[30] 문서 それぞれのCPUコアはインストラクション・デコーダを共有するSIMD型ベクトル演算部とスカラー演算部、それにレベル1とレベル2のキャッシュを持つ。
_[31] 문서 http://download.intel.com/technology/architecture-silicon/Siggraph_Larrabee_paper.pdf Intek.com "Larrabee: Next-Generation Visual Computing Microarchitecture"
_[32] 문서 インテル社ではLarrabeeを画像処理や科学技術計算だけでなく一般アプリケーションやマンマシンインターフェイスの向上に使用したいと考えている、または、考えていた。
_[33] 웹사이트 Clearing up the confusion over Intel's Larrabee http://arstechnica.c[...] Ars Technica 2007-06-01
_[34] 문서 インテル社はMMXで64ビットでのSIMD命令拡張セットを追加して以来、ストリーミングSIMD拡張命令SSEで128ビットを行い、2010年に予定されているAVX (Advanced Vector Extensions) で256ビットまで拡張する流れの1つとも考えられる。
_[35] 웹사이트 Tera Tera Tera http://bt.pa.msu.edu[...] 2007-06-01
_[36] 웹사이트 Intel's next GPU to be Pentium MMX based? http://arstechnica.c[...] Ars Technica 2007-06-29
_[37] 문서
_[38] 웹사이트 Intelがゲーム用物理エンジンを来たるべきGPU製品として採用する http://arstechnica.c[...] Ars Technica 2007-09-17
_[39] 웹사이트 Intel、インテル、「Larrabee」の開発遅延で計画変更--独立GPUを先送り https://web.archive.[...] 読売新聞 2009-12-08
_[40] 문서
_[41] 문서
_[42] 문서
_[43] 뉴스 IDF 2011レポート Justin Rattner氏キーノートスピーチ～メニイコア時代が到来する https://pc.watch.imp[...] PC Watch 2011-09-20
_[44] 웹인용 First Details on a Future Intel Design Codenamed 'Larrabee' http://www.intel.com[...] 인텔 2008-09-01
_[45] 웹인용 Exclusive: Jon Peddie predicts great second half of 2009 for graphics market http://channel.hexus[...] Hexus
_[46] 웹인용 Intel Corp. Q1 2009 Earnings Call Transcript http://seekingalpha.[...] Seeking Alpha
_[47] 웹인용 Intel: Initial Larrabee graphics chip canceled http://news.cnet.com[...] Cnet News 2010-01-12
_[48] 웹인용 Intel MIC: 22nm, 50+ Cores, Larrabee for HPC Announced http://www.anandtech[...] Anandtech
_[49] 웹인용 Intel picks up gaming physics engine for forthcoming GPU product http://arstechnica.c[...] Ars Technica 2007-09-17
_[50] 웹인용 Clearing up the confusion over Intel's Larrabee http://arstechnica.c[...] Ars Technica 2007-06-01
_[51] 웹인용 Intel, DreamWorks take 3D graphics to Super Bowl http://news.cnet.com[...] 2009-07-04
_[52] 웹인용 Larrabee performance--beyond the sound bite http://news.cnet.com[...] 2009-07-04
_[53] 뉴스 Intel's 'Larrabee' on Par With GeForce GTX 285 http://www.tomshardw[...]
_[54] 웹인용 Larrabee: A Many-Core x86 Architecture for Visual Computing http://software.inte[...] 인텔 2008-08-06
_[55] 웹인용 Intel's Larrabee GPU based on secret Pentagon tech, sorta [Updated] http://arstechnica.c[...] Ars Technica 2008-08-06
_[56] 웹인용 Intel's Larrabee--more and less than meets the eye http://news.cnet.com[...] CNET 2008-08-20
_[57] 웹인용 Intel's Larrabee Shaping Up For Next-Gen Consoles? http://www.totalvide[...] 2008-08-24
_[58] 뉴스 AnandTech: Intel's Larrabee Architecture Disclosure: A Calculated First Move http://anandtech.com[...]
_[59] 웹인용 Intel Visual Computing Institute Opens, Will Spur "Larrabee" Development http://www.dailytech[...] DailyTech 2009-05-13
_[60] 웹인용 Intel's 'Larrabee' to Shakeup AMD, Nvidia http://www.tomshardw[...] Tom's Hardware 2008-08-24
_[61] 웹인용 Intelが進める、32コアCPU「Larrabee」 http://pc.watch.impr[...] pc.watch.impress.co.jp 2009-07-12

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com