제노스

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

제노스는 3개의 SIMD 엔진으로 구성된 48개의 셰이더 유닛을 갖춘 GPU로, 10MB의 eDRAM을 프레임 버퍼로 사용한다. 90nm 공정으로 제작되었으며, 500MHz로 작동한다. NEC에서 개발한 eDRAM 다이는 색상, 알파 블렌딩, Z 버퍼, 스텐실 버퍼, 안티 앨리어싱을 위한 장치를 포함하며, 8개의 ROP를 갖추고 있다. 최대 픽셀 필레이트는 초당 4기가픽셀이며, 절차적 합성 기술(XPS)을 통해 CPU에서 생성된 데이터를 메인 메모리 이동 없이 GPU가 직접 읽을 수 있도록 한다. 이후 65nm, 45nm, 32nm 공정으로 발전했다.

제노스

개요

이미지 준비중입니다.

Xenos GPU 사진

개발	ATI
제품	마이크로소프트 Xbox 360
코드명	C1, R500
출시일	2005년 11월 22일
중단일	2013년 4월 20일
인터페이스	PCI Express

기술 사양

메모리 인터페이스	128비트
메모리 대역폭	22.4 GB/s
제조 공정	90 nm

특징

다이렉트엑스 지원	9.0c
픽셀 쉐이더 모델	3.0
버텍스 쉐이더 모델	3.0

성능

코어 클럭	500 MHz
메모리 클럭	700 MHz
픽셀 필 레이트	4 GTexel/s
폴리곤 처리량	500 MPolygon/s

📚 더 읽어볼만한 페이지

엑스박스 360 - 키넥트
키넥트는 마이크로소프트에서 개발한 동작 인식 장치로, 적외선 프로젝터와 센서를 사용하여 사용자의 움직임과 음성을 인식하며, Xbox용으로 출시되어 큰 인기를 얻었지만 개인정보 보호 문제 등으로 판매가 부진하여 생산이 중단되었고, 다양한 분야에서 활용되며 기술적 가치를 인정받아 클라우드 기반 Azure Kinect로 이어졌으나 단종되었다.
엑스박스 360 - 엑스박스 시스템 소프트웨어
엑스박스 시스템 소프트웨어는 엑스박스 콘솔의 사용자 인터페이스와 기능을 제공하며, 게임 실행, 온라인 서비스 이용, 콘솔 설정 등을 포함하고 지속적인 업데이트를 통해 새로운 기능 추가, 성능 개선, 버그 수정을 지원한다.
ATI 테크놀로지스 - 하이퍼메모리
ATI 테크놀로지스 - AMD 크로스파이어X
AMD 크로스파이어X는 AMD의 멀티 GPU 기술로, 여러 개의 그래픽 카드를 함께 사용하여 그래픽 성능을 향상시키며, 엔비디아의 SLI와 경쟁하고 다양한 렌더링 방식을 지원하지만, 전체 화면 모드에서만 작동하는 단점도 존재한다.
컴퓨터 하드웨어 - 하드웨어 가속
하드웨어 가속은 성능 향상을 위해 특정 연산을 전용 하드웨어로 처리하는 기술이며, 병렬 처리를 통해 연산 속도를 높이지만 유연성이 감소하고 비용이 증가하는 특징을 갖는다.
컴퓨터 하드웨어 - 메인보드
메인보드는 컴퓨터의 핵심 부품들을 연결하여 시스템 작동을 가능하게 하는 인쇄 회로 기판으로, CPU, 메모리, 칩셋, 확장 슬롯 등을 포함하며 펌웨어를 통해 하드웨어를 초기화하고 운영체제 부팅을 관리한다.

1. 개요
2. 사양

2. 사양

제노스는 500MHz로 작동하는 GPU와 10MB eDRAM으로 구성되어 있으며, 다음과 같은 특징을 가진다.

👆

좌우로 밀어서 보기

항목	상세 내용
셰이더	3개의 SIMD 엔진 (각각 16개 유닛, 총 48개 유닛)
셰이더 유닛	2개의 ALU(클럭당 1개 연산), 클럭당 2개 부동소수점 연산
트랜지스터	3억 3700만 개
eDRAM	10MB, 500MHz, 90nm 공정, 프레임 버퍼 역할
eDRAM 추가 기능	NEC 개발, 색상, 알파 블렌딩, Z 버퍼, 스텐실 버퍼, 안티 앨리어싱 기능 포함
eDRAM 트랜지스터	1억 500만 개
ROP	8개
최대 픽셀 필레이트	초당 4기가픽셀 (8 ROP x 500 MHz)
최대 Z 샘플레이트	초당 8기가샘플 (2 Z 샘플 x 8 ROP x 500 MHz), 4X AA시 초당 32기가 샘플
최대 AA 샘플레이트	초당 16기가샘플 (4 AA 샘플 x 8 ROP x 500 MHz)
GPU	500MHz, TSMC 90nm 공정, 2억 3200만 개 트랜지스터
통합 셰이더 장치	48개
FLOPS (단위당)	사이클당 10 FLOPS
최대 버텍스 수	초당 15억 버텍스 ((48 셰이더 x 500 MHz) / 16)
최대 폴리곤 수	초당 5억 폴리곤 (15억 버텍스 / 폴리곤당 3버텍스)
최대 셰이더 연산	초당 480억 (2 ALU x 48 셰이더 x 500 MHz)
GFLOPS	240 GFLOPS (10 FLOPS x 48 셰이더 x 500 MHz)
MEMEXPORT 셰이더 함수	지원
텍스처 유닛	16개 텍스처 필터링 유닛(TF), 16개 텍스처 어드레싱 유닛(TA)
텍스처 필터링	클럭당 16개 샘플 필터링 가능
최대 텍셀 필레이트	초당 8기가텍셀 (16 텍스처 x 500 MHz)
최대 도트 프로덕트 연산	초당 240억
셰이더 모델	3.0 (다이렉트X 9.0c 지원)

테라 스케일 마이크로아키텍처를 기반으로 하며, 셰이더 유닛은 그룹당 16개의 프로세서로 구성된 3개의 SIMD 그룹으로 구성되어 총 48개의 프로세서를 갖추고 있다. 각 프로세서는 5-wide 벡터 유닛(총 5개의 FP32 ALU)으로 구성되어 240개의 유닛을 형성하며, 사이클당 최대 두 개의 명령(곱셈과 덧셈)을 순차적으로 실행할 수 있다. SIMD 그룹의 모든 프로세서는 동일한 명령을 실행하므로, 총 3개의 명령 스레드를 동시에 실행할 수 있다.

제노스는 여러 공정을 거쳐 생산되었다.

👆

좌우로 밀어서 보기

공정	트랜지스터 수	특징
90 nm, 65 nm(2008년 이후, 코드명 Gunga) TSMC 공정 또는 45 nm 글로벌파운드리스(GlobalFoundries) 공정(2010년 이후, 동일 다이에 CPU 포함)	2억 3200만 개	500MHz 상위 GPU, 240개의 벡터 유닛 부동 소수점 벡터 프로세서 (3개의 동적 스케줄링 SIMD 그룹, 각 80개 유닛), 통합 셰이딩 아키텍처, 최대 초당 12억 1천만 개의 버텍스, 최대 초당 약 5억 개의 폴리곤, 최대 초당 2400억 개의 셰이더 연산, 240 GFLOPS, MEMEXPORT 셰이더 기능, 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA), 최대 픽셀 채우기 속도: 초당 4.00 기가픽셀, 최대 텍셀 채우기 속도: 초당 8.00기가텍셀, 최대 내적 연산: 초당 240억 개, 다이렉트X 9.0c API DirectX Xbox 360 및 셰이더 모델 3.0+의 상위 집합 지원
90 nm, 80 nm (2008년 이후) 또는 65 nm(2010년 이후)	1억 500만 개	500MHz, 10 MB 딸림 내장 DRAM 프레임 버퍼 (256 Gbit/s), NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함, "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱 제공, 절차적 합성 기술(XPS), 8개의 렌더 출력 유닛, 최대 픽셀 채우기 속도: 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플; MSAA 없이 초당 4기가픽셀, 최대 Z 샘플 속도: 초당 8기가샘플, 4X 안티앨리어싱을 사용하여 초당 32기가샘플, 최대 안티앨리어싱 샘플 속도: 초당 16기가샘플, 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링 지원.
32 nm 공정(2014년 이후)		eDRAM이 동일 다이에 통합

냉각을 위해 콘솔의 GPU와 CPU 모두에 방열판이 있으며, GPU의 방열판은 히트 파이프 기술을 사용하여 GPU 및 eDRAM 다이의 열을 방열판의 핀으로 전달한다. 방열판은 한 쌍의 60mm 배기 팬으로 능동적으로 냉각된다. 새로운 XCGPU 칩셋 재설계는 Xbox 360 S 및 Xbox 360 E 모두에 적용되었으며, CPU(제논)와 GPU(제노스)를 하나의 패키지로 통합하고 두 개가 아닌 하나의 방열판으로 능동적으로 냉각한다.

2.1. 아키텍처

셰이더는 3개의 SIMD 엔진으로 구성되어 있으며, 각 엔진은 16개의 유닛으로 총 48개 유닛을 갖추고 있다. 각 셰이더 유닛은 2개의 ALU(클럭당 1개의 연산 가능)를 가지며, 클럭당 2개의 부동소수점 연산이 가능하다.

제노스는 다음과 같은 특징을 가진다.

* 3억 3700만 개의 트랜지스터
* 10MB eDRAM (프레임 버퍼, 500MHz, 90nm 공정)
NEC에서 개발한 eDRAM 다이에는 색상, 알파 블렌딩, Z 버퍼, 스텐실 버퍼, 안티 앨리어싱(AA)을 위한 장치가 포함되어 있다.
1억 500만 개의 트랜지스터
8개의 ROP(랜더 출력 장치)
* 최대 픽셀 필레이트: 초당 4기가픽셀 (8 ROP x 500 MHz)
* 최대 Z 샘플레이트: 초당 8기가샘플 (2 Z 샘플 x 8 ROP x 500 MHz), 4X AA시 초당 32기가 샘플 (2 Z 샘플 x 8 ROP x 4X AA x 500 MHz)
* 최대 AA(앤티에일리어싱) 샘플레이트: 초당 16기가샘플 (4 AA 샘플 x 8 ROP x 500 MHz)
* 500MHz GPU: TSMC 90nm 공정, 2억 3200만 개의 트랜지스터
48개의 통합 셰이더 장치
* 한 사이클, 한 유닛당 10FLOPS
* 최대 버텍스 수: 초당 15억 버텍스 ((48 셰이더 x 500 MHz) / 16)
* 최대 폴리곤 수: 초당 5억 폴리곤 (15억 버텍스/ 폴리곤당 3버텍스)
* 최대 셰이더 연산: 초당 480억 (2 ALU x 48 셰이더 x 500 MHz)
* 240GFLOPS (10 FLOPS x 48 셰이더 x 500 MHz)
* MEMEXPORT 셰이더 함수
16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)
* 클럭당 16개의 샘플 필터링 가능
* 최대 텍셀 필레이트: 초당 8기가텍셀 ((16 텍스처 x 500 MHz)
최대 도트 프로덕트 연산: 초당 240억
셰이더 모델 3.0: 다이렉트X 9.0c 지원

테라 스케일 마이크로아키텍처는 이 칩을 기반으로 하며, 셰이더 유닛은 그룹당 16개의 프로세서로 구성된 3개의 SIMD 그룹으로 구성되어 총 48개의 프로세서를 갖추고 있다. 이러한 각 프로세서는 5-wide 벡터 유닛(총 5개의 FP32 ALU)으로 구성되어 240개의 유닛을 형성하며, 사이클당 최대 두 개의 명령(곱셈과 덧셈)을 순차적으로 실행할 수 있다. SIMD 그룹의 모든 프로세서는 동일한 명령을 실행하므로, 총 3개의 명령 스레드를 동시에 실행할 수 있다.

이후 공정 개선을 통해 성능 향상 및 전력 소비 감소가 이루어졌다.

* 90 nm, 65 nm 공정(2008년 이후, 코드명 Gunga) TSMC 공정 또는 45 nm 글로벌파운드리스 공정(2010년 이후, 동일 다이에 CPU 포함), 32 nm 공정(2014년 이후, eDRAM이 동일 다이에 통합)의 총 2억 3200만 개의 트랜지스터, 500 MHz 상위 GPU
* 셰이더 실행을 위한 240개의 벡터 유닛 부동 소수점 벡터 프로세서, 각 80개 유닛으로 구성된 3개의 동적 스케줄링 SIMD 그룹으로 분할
* 통합 셰이딩 아키텍처 (각 파이프라인은 픽셀 또는 버텍스 셰이더를 실행할 수 있음)
* 벡터 프로세서당 사이클당 10 FP 연산 (5개의 융합 곱셈-덧셈)
* 최대 버텍스 수: 초당 12억 1천만 개의 버텍스
* 최대 폴리곤 수: 초당 약 5억 개의 폴리곤
* 최대 셰이더 연산: 초당 2400억 개의 셰이더 연산 (3개의 셰이더 파이프라인 × 80개 유닛 × 2개의 ALU × 0.5 GHz (500 MHz))
* 240 GFLOPS
* MEMEXPORT 셰이더 기능
* 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)
* 클럭당 16개의 필터링된 샘플
* 최대 픽셀 채우기 속도: 초당 4.00 기가픽셀
* 최대 텍셀 채우기 속도: 초당 8.00기가텍셀(16개 텍스처 × 500 MHz)
* 클럭당 16개의 필터링되지 않은 텍스처 샘플
* 최대 내적 연산: 초당 240억 개
* 다이렉트X 9.0c API DirectX Xbox 360 및 셰이더 모델 3.0+의 상위 집합 지원
* 90 nm, 80 nm (2008년 이후) 또는 65 nm(2010년 이후)의 500 MHz, 10 MB 딸림 내장 DRAM 프레임 버퍼 (256 Gbit/s)
* NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함되어 있으며, "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱을 제공한다.
* 절차적 합성 기술(XPS): CPU로 읽기 스트리밍하는 동안, 사용자 지정 프리페치 명령인 확장된 데이터 캐시 블록 터치(xDCBT)는 데이터를 프리페치하여 대상 코어의 L1 데이터 캐시로 직접 전송하므로, L2 캐시에 데이터를 넣지 않아 L2 캐시를 소모하는 것을 방지한다. 각 코어에서 스트리밍되는 쓰기는 L1 캐시를 건너뛰고(고대역폭, 일시적, 쓰기 전용 데이터 스트림의 L1 캐시 소모 방지), L2 캐시로 직접 이동한다. 이 시스템을 통해 GPU는 CPU에서 생성된 데이터를 메인 메모리로 이동하지 않고 직접 읽을 수 있다. 이러한 특정 데이터 스트리밍의 경우, Xbox 절차적 합성(XPS)이라고 하며, CPU는 효과적으로 데이터 압축 해제기 역할을 하여 GPU 3D 코어에서 소비할 기하학적 구조를 즉석에서 생성한다.
* 8개의 렌더 출력 유닛
* 최대 픽셀 채우기 속도: 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플; MSAA 없이 초당 4기가픽셀(8개의 ROP × 500 MHz)
* 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링 지원.
* 냉각: 콘솔의 GPU와 CPU 모두에 방열판이 있다. GPU의 방열판은 히트 파이프 기술을 사용하여 GPU 및 eDRAM 다이의 열을 방열판의 핀으로 전달한다. 방열판은 한 쌍의 60 mm 배기 팬으로 능동적으로 냉각된다. 새로운 XCGPU 칩셋 재설계는 Xbox 360 S 및 Xbox 360 E 모두에 적용되었으며, CPU(제논)와 GPU(제노스)를 하나의 패키지로 통합하고 두 개가 아닌 하나의 방열판으로 능동적으로 냉각한다.

2.2. 연산 성능

제노스는 3개의 SIMD 엔진으로 구성되어 있으며, 각 엔진은 16개의 유닛을 가지고 있어 총 48개의 셰이더 유닛으로 이루어져 있다. 각 셰이더 유닛은 클럭당 2개의 부동소수점 연산이 가능한 2개의 ALU를 갖추고 있다.

👆

좌우로 밀어서 보기

항목	상세 내용
트랜지스터 수	3억 3700만 개
eDRAM	10MB eDRAM (프레임 버퍼, 500MHz, 90nm 공정)
eDRAM (추가 기능)	NEC에서 개발, 색상, 알파 블렌딩, Z 버퍼, 스텐실 버퍼, 안티 앨리어싱(AA) 기능 포함
eDRAM (트랜지스터 수)	1억 500만 개
ROP	8개
최대 픽셀 필레이트	초당 4기가픽셀 (8 ROP x 500 MHz)
최대 Z 샘플레이트	초당 8기가샘플 (2 Z 샘플 x 8 ROP x 500 MHz), 4X AA시 초당 32기가 샘플 (2 Z 샘플 x 8 ROP x 4X AA x 500 MHz)
최대 AA 샘플레이트	초당 16기가샘플 (4 AA 샘플 x 8 ROP x 500 MHz)
GPU	500MHz (TSMC 90nm 공정, 트랜지스터 2억 3200만 개)
통합 셰이더 장치	48개
FLOPS (단위당)	사이클당 10 FLOPS
최대 버텍스 수	초당 15억 버텍스 ((48 셰이더 x 500 MHz) / 16)
최대 폴리곤 수	초당 5억 폴리곤 (15억 버텍스 / 폴리곤당 3버텍스)
최대 셰이더 연산	초당 480억 (2 ALU x 48 셰이더 x 500 MHz)
GFLOPS	240 GFLOPS (10 FLOPS x 48 셰이더 x 500 MHz)
MEMEXPORT 셰이더 함수	지원
텍스처 유닛	16개 텍스처 필터링 유닛(TF), 16개 텍스처 어드레싱 유닛(TA)
텍스처 필터링	클럭당 16개 샘플 필터링 가능
최대 텍셀 필레이트	초당 8기가텍셀 (16 텍스처 x 500 MHz)
최대 도트 프로덕트 연산	초당 240억
셰이더 모델	3.0 (다이렉트X 9.0c 지원)

테라 스케일 마이크로아키텍처는 이 칩을 기반으로 하며, 셰이더 유닛은 그룹당 16개의 프로세서로 구성된 3개의 SIMD 그룹으로 구성되어 총 48개의 프로세서를 갖추고 있다. 각 프로세서는 5-wide 벡터 유닛(총 5개의 FP32 ALU)으로 구성되어 240개의 유닛을 형성하며, 사이클당 최대 두 개의 명령(곱셈과 덧셈)을 순차적으로 실행할 수 있다. SIMD 그룹의 모든 프로세서는 동일한 명령을 실행하므로, 총 3개의 명령 스레드를 동시에 실행할 수 있다.

* 90 nm, 65 nm(2008년 이후, 코드명 Gunga) TSMC 공정 또는 45 nm 글로벌파운드리스(GlobalFoundries) 공정(2010년 이후, 동일 다이에 CPU 포함)의 총 2억 3200만 개의 트랜지스터, 32 nm 공정(2014년 이후, eDRAM이 동일 다이에 통합)의 500 MHz 상위 GPU
* 셰이더 실행을 위한 240개의 벡터 유닛 부동 소수점 벡터 프로세서, 각 80개 유닛으로 구성된 3개의 동적 스케줄링 SIMD 그룹으로 분할
* 통합 셰이딩 아키텍처 (각 파이프라인은 픽셀 또는 버텍스 셰이더를 실행할 수 있음)
* 벡터 프로세서당 사이클당 10 FP 연산 (5개의 융합 곱셈-덧셈)
* 최대 버텍스 수: 초당 12억 1천만 개의 버텍스
* 최대 폴리곤 수: 초당 약 5억 개의 폴리곤
* 최대 셰이더 연산: 초당 2400억 개의 셰이더 연산 (3개의 셰이더 파이프라인 × 80개 유닛 × 2개의 ALU × 0.5 GHz (500 MHz))
* 240 GFLOPS
* MEMEXPORT 셰이더 기능
* 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)
* 클럭당 16개의 필터링된 샘플
* 최대 픽셀 채우기 속도: 초당 4.00 기가픽셀
* 최대 텍셀 채우기 속도: 초당 8.00기가텍셀(16개 텍스처 × 500 MHz)
* 클럭당 16개의 필터링되지 않은 텍스처 샘플
* 최대 내적 연산: 초당 240억 개
* 다이렉트X 9.0c API DirectX Xbox 360 및 셰이더 모델 3.0+의 상위 집합 지원
* 90 nm, 80 nm (2008년 이후) 또는 65 nm(2010년 이후)의 500 MHz, 10 MB 딸림 내장 DRAM 프레임 버퍼 (256 Gbit/s)
* NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함되어 있으며, "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱을 제공한다.
* 절차적 합성 기술(XPS): CPU로 읽기 스트리밍하는 동안, 사용자 지정 프리페치 명령인 확장된 데이터 캐시 블록 터치(xDCBT)는 데이터를 프리페치하여 대상 코어의 L1 데이터 캐시로 직접 전송하므로, L2 캐시에 데이터를 넣지 않아 L2 캐시를 소모하는 것을 방지한다. 각 코어에서 스트리밍되는 쓰기는 L1 캐시를 건너뛰고(고대역폭, 일시적, 쓰기 전용 데이터 스트림의 L1 캐시 소모 방지), L2 캐시로 직접 이동한다. 이 시스템을 통해 GPU는 CPU에서 생성된 데이터를 메인 메모리로 이동하지 않고 직접 읽을 수 있다. 이러한 특정 데이터 스트리밍의 경우, Xbox 절차적 합성(XPS)이라고 하며, CPU는 효과적으로 데이터 압축 해제기 역할을 하여 GPU 3D 코어에서 소비할 기하학적 구조를 즉석에서 생성한다.
* 1억 500만 개의 트랜지스터
* 8개의 렌더 출력 유닛
* 최대 픽셀 채우기 속도: 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플; MSAA 없이 초당 4기가픽셀(8개의 ROP × 500 MHz)
* 최대 Z 샘플 속도: 초당 8기가샘플(2개의 Z 샘플 × 8개의 ROP × 500 MHz), 4X 안티앨리어싱을 사용하여 초당 32기가샘플(2개의 Z 샘플 × 8개의 ROP × 4X AA × 500 MHz)
* 최대 안티앨리어싱 샘플 속도: 초당 16기가샘플(4개의 AA 샘플 × 8개의 ROP × 500 MHz)
* 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링 지원.

2.3. 텍스처 처리

셰이더는 3개의 SIMD 엔진으로 구성되어 있으며, 각 엔진은 16개의 유닛으로 총 48개 유닛을 갖추고 있다. 각 셰이더 유닛은 2개의 ALU(클럭당 1개의 연산 가능)를 가지며, 클럭당 2개의 부동소수점 연산이 가능하다.

제노스는 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)을 갖추고 있다. 클럭당 16개의 샘플 필터링이 가능하며, 최대 텍셀 필레이트는 초당 8기가텍셀(16 텍스처 x 500 MHz)이다.

NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함되어 있다. "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱을 제공한다.

절차적 합성 기술(XPS)은 확장된 데이터 캐시 블록 터치(xDCBT)라는 사용자 지정 프리페치 명령을 통해 데이터를 프리페치하여 대상 코어의 L1 데이터 캐시로 직접 전송한다. 이를 통해 L2 캐시에 데이터를 넣지 않아 L2 캐시 소모를 방지한다. 각 코어에서 스트리밍되는 쓰기는 L1 캐시를 건너뛰고 L2 캐시로 직접 이동한다. 이 시스템을 통해 GPU는 CPU에서 생성된 데이터를 메인 메모리로 이동하지 않고 직접 읽을 수 있다. 이러한 특정 데이터 스트리밍은 Xbox 절차적 합성(XPS)이라고 하며, CPU는 효과적으로 데이터 압축 해제기 역할을 하여 GPU 3D 코어에서 소비할 기하학적 구조를 즉석에서 생성한다.

8개의 렌더 출력 유닛을 갖추고 있으며, 최대 픽셀 채우기 속도는 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플이다. MSAA 없이 초당 4기가픽셀(8개의 ROP × 500 MHz)이다. 최대 Z 샘플 속도는 초당 8기가샘플(2개의 Z 샘플 × 8개의 ROP × 500 MHz)이며, 4X 안티앨리어싱을 사용하면 초당 32기가샘플(2개의 Z 샘플 × 8개의 ROP × 4X AA × 500 MHz)이다. 최대 안티앨리어싱 샘플 속도는 초당 16기가샘플(4개의 AA 샘플 × 8개의 ROP × 500 MHz)이다. 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링을 지원한다.

2.4. 렌더링 출력

셰이더는 3개의 SIMD 엔진으로 구성되어 있으며, 각 엔진은 16개의 유닛으로 총 48개이다. 각 셰이더 유닛은 2개의 ALU(클럭당 1개의 연산 가능)를 가지며 클럭당 2개의 부동소수점 연산이 가능하다.

* 10MB eDRAM(embedded DRAM): 프레임 버퍼, 500MHz, 90나노(nm) 공정
NEC에서 개발한 eDRAM 다이에는 색상, 알파 블렌딩, Z 버퍼, 스텐실 버퍼, AA(안티 앨리어싱)를 위한 장치가 포함되어 있다.
8 ROP(랜더 출력 장치, Render Output unit)
* 최대 픽셀 필레이트: 초당 4기가픽셀(8 ROP x 500 MHz)
* 최대 Z 샘플레이트 : 초당 8기가샘플(2 Z 샘플 x 8 ROP x 500 MHz), 4X AA시 초당 32기가 샘플(2 Z 샘플 x 8 ROP x 4X AA x 500 MHz)
* 최대 AA(앤티에일리어싱) 샘플레이트 : 초당 16기가샘플(4 AA 샘플 x 8 ROP x 500 MHz)
* 500MHz GPU : TSMC 90나노 공정
48개의 통합 셰이더 장치
* 최대 버텍스 수 : 초당 15억 버텍스((48 셰이더 x 500 MHz) / 16)
* 최대 폴리곤 수 : 초당 5억 폴리곤(15억 버텍스/ 폴리곤당 3버텍스)
* 최대 셰이더 연산 : 초당 480억(2 ALU x 48 셰이더 x 500 MHz)
* 240GFLOPS(10 FLOPS x 48 셰이더 x 500 MHz)
* MEMEXPORT 셰이더 함수
16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)
* 최대 텍셀 필레이트 : 초당 8기가텍셀((16 텍스처 x 500 MHz)
최대 도트 프로덕트 연산 : 초당 240억
** 셰이더 모델 3.0 : 다이렉트X 9.0c 지원
테라스케일 마이크로아키텍처는 이 칩을 기반으로 하며, 셰이더 유닛은 그룹당 16개의 프로세서로 구성된 3개의 SIMD 그룹으로 구성되어 총 48개의 프로세서를 갖추고 있다. 이러한 각 프로세서는 5-wide 벡터 유닛(총 5개의 FP32 ALU)으로 구성되어 240개의 유닛을 형성하며, 사이클당 최대 두 개의 명령(곱셈과 덧셈)을 순차적으로 실행할 수 있다. SIMD 그룹의 모든 프로세서는 동일한 명령을 실행하므로, 총 3개의 명령 스레드를 동시에 실행할 수 있다.

* 90 nm, 65 nm(2008년 이후, 코드명 Gunga) TSMC 공정 또는 45 nm 글로벌파운드리스(GlobalFoundries) 공정(2010년 이후, 동일 다이에 CPU 포함)의 총 2억 3200만 개의 트랜지스터, 32 nm 공정(2014년 이후, eDRAM이 동일 다이에 통합)의 500 MHz 상위 GPU
* 셰이더 실행을 위한 240개의 벡터 유닛 부동 소수점 벡터 프로세서, 각 80개 유닛으로 구성된 3개의 동적 스케줄링 SIMD 그룹으로 분할
* 통합 셰이딩 아키텍처 (각 파이프라인은 픽셀 또는 버텍스 셰이더를 실행할 수 있음)
* 벡터 프로세서당 사이클당 10 FP 연산 (5개의 융합 곱셈-덧셈)
* 최대 버텍스 수: 초당 12억 1천만 개의 버텍스
* 최대 폴리곤 수: 초당 약 5억 개의 폴리곤
* 최대 셰이더 연산: 초당 2400억 개의 셰이더 연산 (3개의 셰이더 파이프라인 × 80개 유닛 × 2개의 ALU × 0.5 GHz (500 MHz))
* 240 GFLOPS
* MEMEXPORT 셰이더 기능
* 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)
* 클럭당 16개의 필터링된 샘플
* 최대 픽셀 채우기 속도: 초당 4.00 기가픽셀
* 최대 텍셀 채우기 속도: 초당 8.00기가텍셀(16개 텍스처 × 500 MHz)
* 클럭당 16개의 필터링되지 않은 텍스처 샘플
* 최대 내적 연산: 초당 240억 개
* 다이렉트X 9.0c API DirectX Xbox 360 및 셰이더 모델 3.0+의 상위 집합 지원
* 90 nm, 80 nm (2008년 이후) 또는 65 nm(2010년 이후)의 500 MHz, 10 MB 딸림 내장 DRAM 프레임 버퍼 (256 Gbit/s)
* NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함되어 있으며, "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱을 제공한다.
* 절차적 합성 기술(XPS): CPU로 읽기 스트리밍하는 동안, 사용자 지정 프리페치 명령인 확장된 데이터 캐시 블록 터치(xDCBT)는 데이터를 프리페치하여 대상 코어의 L1 데이터 캐시로 직접 전송하므로, L2 캐시에 데이터를 넣지 않아 L2 캐시를 소모하는 것을 방지한다. 각 코어에서 스트리밍되는 쓰기는 L1 캐시를 건너뛰고(고대역폭, 일시적, 쓰기 전용 데이터 스트림의 L1 캐시 소모 방지), L2 캐시로 직접 이동한다. 이 시스템을 통해 GPU는 CPU에서 생성된 데이터를 메인 메모리로 이동하지 않고 직접 읽을 수 있다. 이러한 특정 데이터 스트리밍의 경우, Xbox 절차적 합성(XPS)이라고 하며, CPU는 효과적으로 데이터 압축 해제기 역할을 하여 GPU 3D 코어에서 소비할 기하학적 구조를 즉석에서 생성한다.
* 8개의 렌더 출력 유닛
* 최대 픽셀 채우기 속도: 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플; MSAA 없이 초당 4기가픽셀(8개의 ROP × 500 MHz)
* 최대 Z 샘플 속도: 초당 8기가샘플(2개의 Z 샘플 × 8개의 ROP × 500 MHz), 4X 안티앨리어싱을 사용하여 초당 32기가샘플(2개의 Z 샘플 × 8개의 ROP × 4X AA × 500 MHz)
* 최대 안티앨리어싱 샘플 속도: 초당 16기가샘플(4개의 AA 샘플 × 8개의 ROP × 500 MHz)
* 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링 지원.
* 냉각: 콘솔의 GPU와 CPU 모두에 방열판이 있다. GPU의 방열판은 히트 파이프 기술을 사용하여 GPU 및 eDRAM 다이의 열을 방열판의 핀으로 전달한다. 방열판은 한 쌍의 60 mm 배기 팬으로 능동적으로 냉각된다. 새로운 XCGPU 칩셋 재설계는 Xbox 360 S 및 Xbox 360 E 모두에 적용되었으며, CPU(제논)와 GPU(제노스)를 하나의 패키지로 통합하고 두 개가 아닌 하나의 방열판으로 능동적으로 냉각한다.

2.5. eDRAM

NEC에서 개발한 10MB eDRAM은 90나노 공정으로 만들어졌으며, 프레임 버퍼 역할을 한다. 500MHz로 작동하며, 색상, 알파 블렌딩, Z 버퍼, 스텐실 버퍼, 안티 앨리어싱(AA)을 위한 장치가 포함되어 있다. eDRAM은 1.05억 개의 트랜지스터로 구성되어 있다.

eDRAM 다이에는 "Intelligent Memory"라는 추가 로직(192개의 병렬 픽셀 프로세서)이 포함되어 있어 개발자는 매우 적은 성능 비용으로 4-샘플 공간적 안티앨리어싱을 사용할 수 있다.

* 8개의 ROP(랜더 출력 장치)를 가지고 있다.
* 최대 픽셀 필레이트: 초당 4기가픽셀 (8 ROP x 500 MHz)
* 최대 Z 샘플레이트: 초당 8기가샘플 (2 Z 샘플 x 8 ROP x 500 MHz), 4X AA시 초당 32기가 샘플 (2 Z 샘플 x 8 ROP x 4X AA x 500 MHz)
* 최대 AA(앤티에일리어싱) 샘플레이트: 초당 16기가샘플 (4 AA 샘플 x 8 ROP x 500 MHz)

2008년 이후에는 80nm 공정, 2010년 이후에는 65nm 공정으로 제조되었다.

2.6. 기타

테라 스케일 마이크로아키텍처를 기반으로 하는 이 칩은 셰이더 유닛이 그룹당 16개의 프로세서로 구성된 3개의 SIMD 그룹으로 이루어져 총 48개의 프로세서를 갖추고 있다. 각 프로세서는 5-wide 벡터 유닛(총 5개의 FP32 ALU)으로 구성되어 240개의 유닛을 형성하며, 사이클당 최대 두 개의 명령(곱셈과 덧셈)을 순차적으로 실행할 수 있다. SIMD 그룹의 모든 프로세서는 동일한 명령을 실행하므로, 총 3개의 명령 스레드를 동시에 실행할 수 있다.

* 90 nm, 65 nm(2008년 이후, 코드명 Gunga) TSMC 공정 또는 45 nm 글로벌파운드리스(GlobalFoundries) 공정(2010년 이후, 동일 다이에 CPU 포함)을 거쳐, 32 nm 공정(2014년 이후, eDRAM이 동일 다이에 통합)에 이르기까지 총 2억 3200만 개의 트랜지스터를 가진 500 MHz 상위 GPU이다.
* 셰이더 실행을 위한 240개의 벡터 유닛 부동 소수점 벡터 프로세서가 있으며, 각 80개 유닛으로 구성된 3개의 동적 스케줄링 SIMD 그룹으로 나뉜다.
* 통합 셰이딩 아키텍처 (각 파이프라인은 픽셀 또는 버텍스 셰이더를 실행)
* 벡터 프로세서당 사이클당 10 FP 연산 (5개의 융합 곱셈-덧셈)
* 최대 버텍스 수: 초당 12억 1천만 개
* 최대 폴리곤 수: 초당 약 5억 개
* 최대 셰이더 연산: 초당 2400억 개 (3개의 셰이더 파이프라인 × 80개 유닛 × 2개의 ALU × 0.5 GHz (500 MHz))
* 240 GFLOPS
* MEMEXPORT 셰이더 기능
* 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)
* 클럭당 16개의 필터링된 샘플
* 최대 픽셀 채우기 속도: 초당 4.00 기가픽셀
* 최대 텍셀 채우기 속도: 초당 8.00기가텍셀(16개 텍스처 × 500 MHz)
* 클럭당 16개의 필터링되지 않은 텍스처 샘플
* 최대 내적 연산: 초당 240억 개
* 다이렉트X 9.0c API DirectX Xbox 360 및 셰이더 모델 3.0+의 상위 집합 지원
* 90 nm, 80 nm (2008년 이후) 또는 65 nm(2010년 이후)의 500 MHz, 10 MB 딸림 내장 DRAM 프레임 버퍼 (256 Gbit/s)
* NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함되어 있다. "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱을 제공한다.
* 절차적 합성 기술(XPS): CPU로 읽기 스트리밍하는 동안, 사용자 지정 프리페치 명령인 확장된 데이터 캐시 블록 터치(xDCBT)는 데이터를 프리페치하여 대상 코어의 L1 데이터 캐시로 직접 전송한다. 이는 L2 캐시에 데이터를 넣지 않아 L2 캐시를 소모하는 것을 방지한다. 각 코어에서 스트리밍되는 쓰기는 L1 캐시를 건너뛰고(고대역폭, 일시적, 쓰기 전용 데이터 스트림의 L1 캐시 소모 방지), L2 캐시로 직접 이동한다. 이 시스템을 통해 GPU는 CPU에서 생성된 데이터를 메인 메모리로 이동하지 않고 직접 읽을 수 있다. 이러한 특정 데이터 스트리밍은 Xbox 절차적 합성(XPS)이라고 하며, CPU는 효과적으로 데이터 압축 해제기 역할을 하여 GPU 3D 코어에서 소비할 기하학적 구조를 즉석에서 생성한다.
* 1억 500만 개의 트랜지스터
* 8개의 렌더 출력 유닛
* 최대 픽셀 채우기 속도: 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플; MSAA 없이 초당 4기가픽셀(8개의 ROP × 500 MHz)
* 최대 Z 샘플 속도: 초당 8기가샘플(2개의 Z 샘플 × 8개의 ROP × 500 MHz), 4X 안티앨리어싱을 사용하여 초당 32기가샘플(2개의 Z 샘플 × 8개의 ROP × 4X AA × 500 MHz)
* 최대 안티앨리어싱 샘플 속도: 초당 16기가샘플(4개의 AA 샘플 × 8개의 ROP × 500 MHz)
* 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링 지원.
* 냉각: 콘솔의 GPU와 CPU 모두에 방열판이 있다. GPU의 방열판은 히트 파이프 기술을 사용하여 GPU 및 eDRAM 다이의 열을 방열판의 핀으로 전달한다. 방열판은 한 쌍의 60 mm 배기 팬으로 능동적으로 냉각된다. 새로운 XCGPU 칩셋 재설계는 Xbox 360 S 및 Xbox 360 E 모두에 적용되었으며, CPU(제논)와 GPU(제노스)를 하나의 패키지로 통합하고 두 개가 아닌 하나의 방열판으로 능동적으로 냉각한다.

2.7. 공정 변화

테라 스케일 마이크로아키텍처(TeraScale microarchitecture) 기반의 이 칩은 셰이더 유닛이 그룹당 16개의 프로세서로 구성된 3개의 SIMD 그룹으로 구성되어 총 48개의 프로세서를 갖추고 있다. 각 프로세서는 5-wide 벡터 유닛(총 5개의 FP32 ALU)으로 구성되어 240개의 유닛을 형성하며, 사이클당 최대 두 개의 명령(곱셈과 덧셈)을 순차적으로 실행할 수 있다. SIMD 그룹의 모든 프로세서는 동일한 명령을 실행하므로, 총 3개의 명령 스레드를 동시에 실행할 수 있다.

제노스는 여러 공정을 거쳐 생산되었다.

👆

좌우로 밀어서 보기

공정	트랜지스터 수	특징
90 nm, 65 nm(2008년 이후, 코드명 Gunga) TSMC 공정 또는 45 nm 글로벌파운드리스(GlobalFoundries) 공정(2010년 이후, 동일 다이에 CPU 포함)	2억 3200만 개	500MHz 상위 GPU, 240개의 벡터 유닛 부동 소수점 벡터 프로세서 (3개의 동적 스케줄링 SIMD 그룹, 각 80개 유닛), 통합 셰이딩 아키텍처, 최대 초당 12억 1천만 개의 버텍스, 최대 초당 약 5억 개의 폴리곤, 최대 초당 2400억 개의 셰이더 연산, 240 GFLOPS, MEMEXPORT 셰이더 기능, 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA), 최대 픽셀 채우기 속도: 초당 4.00 기가픽셀, 최대 텍셀 채우기 속도: 초당 8.00기가텍셀, 최대 내적 연산: 초당 240억 개, 다이렉트X 9.0c API DirectX Xbox 360 및 셰이더 모델 3.0+의 상위 집합 지원
90 nm, 80 nm (2008년 이후) 또는 65 nm(2010년 이후)	1억 500만 개	500MHz, 10 MB 딸림 내장 DRAM 프레임 버퍼 (256 Gbit/s), NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함, "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱 제공, 절차적 합성 기술(XPS), 8개의 렌더 출력 유닛, 최대 픽셀 채우기 속도: 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플; MSAA 없이 초당 4기가픽셀, 최대 Z 샘플 속도: 초당 8기가샘플, 4X 안티앨리어싱을 사용하여 초당 32기가샘플, 최대 안티앨리어싱 샘플 속도: 초당 16기가샘플, 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링 지원.
32 nm 공정(2014년 이후)		eDRAM이 동일 다이에 통합