맨위로가기

제노스

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

제노스는 3개의 SIMD 엔진으로 구성된 48개의 셰이더 유닛을 갖춘 GPU로, 10MB의 eDRAM을 프레임 버퍼로 사용한다. 90nm 공정으로 제작되었으며, 500MHz로 작동한다. NEC에서 개발한 eDRAM 다이는 색상, 알파 블렌딩, Z 버퍼, 스텐실 버퍼, 안티 앨리어싱을 위한 장치를 포함하며, 8개의 ROP를 갖추고 있다. 최대 픽셀 필레이트는 초당 4기가픽셀이며, 절차적 합성 기술(XPS)을 통해 CPU에서 생성된 데이터를 메인 메모리 이동 없이 GPU가 직접 읽을 수 있도록 한다. 이후 65nm, 45nm, 32nm 공정으로 발전했다.

더 읽어볼만한 페이지

  • 엑스박스 360 - 키넥트
    키넥트는 마이크로소프트에서 개발한 동작 인식 장치로, 적외선 프로젝터와 센서를 사용하여 사용자의 움직임과 음성을 인식하며, Xbox용으로 출시되어 큰 인기를 얻었지만 개인정보 보호 문제 등으로 판매가 부진하여 생산이 중단되었고, 다양한 분야에서 활용되며 기술적 가치를 인정받아 클라우드 기반 Azure Kinect로 이어졌으나 단종되었다.
  • 엑스박스 360 - 엑스박스 시스템 소프트웨어
    엑스박스 시스템 소프트웨어는 엑스박스 콘솔의 사용자 인터페이스와 기능을 제공하며, 게임 실행, 온라인 서비스 이용, 콘솔 설정 등을 포함하고 지속적인 업데이트를 통해 새로운 기능 추가, 성능 개선, 버그 수정을 지원한다.
  • ATI 테크놀로지스 제품 - 라데온
    AMD에서 개발한 라데온은 엔비디아 지포스에 대항하기 위해 등장한 GPU 브랜드로, 꾸준한 기술 향상을 통해 경쟁력을 확보하며 PC, 콘솔 게임기, 모바일 기기 등 다양한 플랫폼에 탑재되었다.
  • ATI 테크놀로지스 제품 - 라데온 R100 시리즈
    라데온 R100 시리즈는 ATI에서 2000년에 출시한 GPU로, R100 아키텍처를 기반으로 지포스 256과 경쟁하기 위해 개발되었으며 데스크톱 그래픽 카드, 메인보드 칩셋, 모바일 GPU 솔루션 등으로 활용되었다.
  • ATI 테크놀로지스 - 하이퍼메모리
  • ATI 테크놀로지스 - AMD 크로스파이어X
    AMD 크로스파이어X는 AMD의 멀티 GPU 기술로, 여러 개의 그래픽 카드를 함께 사용하여 그래픽 성능을 향상시키며, 엔비디아의 SLI와 경쟁하고 다양한 렌더링 방식을 지원하지만, 전체 화면 모드에서만 작동하는 단점도 존재한다.
제노스
개요
Xenos GPU 사진
Xenos GPU 사진
개발ATI
제품마이크로소프트 Xbox 360
코드명C1, R500
출시일2005년 11월 22일
중단일2013년 4월 20일
인터페이스PCI Express
기술 사양
메모리 인터페이스128비트
메모리 대역폭22.4 GB/s
제조 공정90 nm
특징
다이렉트엑스 지원9.0c
픽셀 쉐이더 모델3.0
버텍스 쉐이더 모델3.0
성능
코어 클럭500 MHz
메모리 클럭700 MHz
픽셀 필 레이트4 GTexel/s
폴리곤 처리량500 MPolygon/s

2. 사양

제노스는 500MHz로 작동하는 GPU와 10MB eDRAM으로 구성되어 있으며, 다음과 같은 특징을 가진다.

항목상세 내용
셰이더3개의 SIMD 엔진 (각각 16개 유닛, 총 48개 유닛)[3]
셰이더 유닛2개의 ALU(클럭당 1개 연산), 클럭당 2개 부동소수점 연산[3]
트랜지스터3억 3700만 개
eDRAM10MB, 500MHz, 90nm 공정, 프레임 버퍼 역할[4]
eDRAM 추가 기능NEC 개발, 색상, 알파 블렌딩, Z 버퍼, 스텐실 버퍼, 안티 앨리어싱 기능 포함[4]
eDRAM 트랜지스터1억 500만 개[6]
ROP8개[6]
최대 픽셀 필레이트초당 4기가픽셀 (8 ROP x 500 MHz)[1]
최대 Z 샘플레이트초당 8기가샘플 (2 Z 샘플 x 8 ROP x 500 MHz), 4X AA시 초당 32기가 샘플[1]
최대 AA 샘플레이트초당 16기가샘플 (4 AA 샘플 x 8 ROP x 500 MHz)[1]
GPU500MHz, TSMC 90nm 공정, 2억 3200만 개 트랜지스터[3]
통합 셰이더 장치48개[3]
FLOPS (단위당)사이클당 10 FLOPS[3]
최대 버텍스초당 15억 버텍스 ((48 셰이더 x 500 MHz) / 16)[3]
최대 폴리곤초당 5억 폴리곤 (15억 버텍스 / 폴리곤당 3버텍스)[3]
최대 셰이더 연산초당 480억 (2 ALU x 48 셰이더 x 500 MHz)[3]
GFLOPS240 GFLOPS (10 FLOPS x 48 셰이더 x 500 MHz)[3]
MEMEXPORT 셰이더 함수지원[3]
텍스처 유닛16개 텍스처 필터링 유닛(TF), 16개 텍스처 어드레싱 유닛(TA)[3]
텍스처 필터링클럭당 16개 샘플 필터링 가능[3]
최대 텍셀 필레이트초당 8기가텍셀 (16 텍스처 x 500 MHz)[3]
최대 도트 프로덕트 연산초당 240억[3]
셰이더 모델3.0 (다이렉트X 9.0c 지원)[3]



테라 스케일 마이크로아키텍처를 기반으로 하며, 셰이더 유닛은 그룹당 16개의 프로세서로 구성된 3개의 SIMD 그룹으로 구성되어 총 48개의 프로세서를 갖추고 있다. 각 프로세서는 5-wide 벡터 유닛(총 5개의 FP32 ALU)으로 구성되어 240개의 유닛을 형성하며, 사이클당 최대 두 개의 명령(곱셈과 덧셈)을 순차적으로 실행할 수 있다. SIMD 그룹의 모든 프로세서는 동일한 명령을 실행하므로, 총 3개의 명령 스레드를 동시에 실행할 수 있다.[3]

제노스는 여러 공정을 거쳐 생산되었다.

공정트랜지스터 수특징
90 nm, 65 nm(2008년 이후, 코드명 Gunga) TSMC 공정 또는 45 nm 글로벌파운드리스(GlobalFoundries) 공정(2010년 이후, 동일 다이에 CPU 포함)2억 3200만 개500MHz 상위 GPU, 240개의 벡터 유닛 부동 소수점 벡터 프로세서 (3개의 동적 스케줄링 SIMD 그룹, 각 80개 유닛), 통합 셰이딩 아키텍처, 최대 초당 12억 1천만 개의 버텍스, 최대 초당 약 5억 개의 폴리곤, 최대 초당 2400억 개의 셰이더 연산, 240 GFLOPS, MEMEXPORT 셰이더 기능, 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA), 최대 픽셀 채우기 속도: 초당 4.00 기가픽셀, 최대 텍셀 채우기 속도: 초당 8.00기가텍셀, 최대 내적 연산: 초당 240억 개, 다이렉트X 9.0c API DirectX Xbox 360 및 셰이더 모델 3.0+의 상위 집합 지원
90 nm, 80 nm (2008년 이후)[4] 또는 65 nm(2010년 이후)[5]1억 500만 개[6]500MHz, 10 MB 딸림 내장 DRAM 프레임 버퍼 (256 Gbit/s), NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함, "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱 제공, 절차적 합성 기술(XPS), 8개의 렌더 출력 유닛, 최대 픽셀 채우기 속도: 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플; MSAA 없이 초당 4기가픽셀, 최대 Z 샘플 속도: 초당 8기가샘플, 4X 안티앨리어싱을 사용하여 초당 32기가샘플[1], 최대 안티앨리어싱 샘플 속도: 초당 16기가샘플[1], 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링 지원.[7]
32 nm 공정(2014년 이후)eDRAM이 동일 다이에 통합



냉각을 위해 콘솔의 GPU와 CPU 모두에 방열판이 있으며, GPU의 방열판은 히트 파이프 기술을 사용하여 GPU 및 eDRAM 다이의 열을 방열판의 핀으로 전달한다. 방열판은 한 쌍의 60mm 배기 팬으로 능동적으로 냉각된다. 새로운 XCGPU 칩셋 재설계는 Xbox 360 S 및 Xbox 360 E 모두에 적용되었으며, CPU(제논)와 GPU(제노스)를 하나의 패키지로 통합하고 두 개가 아닌 하나의 방열판으로 능동적으로 냉각한다.

2. 1. 아키텍처

셰이더는 3개의 SIMD 엔진으로 구성되어 있으며, 각 엔진은 16개의 유닛으로 총 48개 유닛을 갖추고 있다. 각 셰이더 유닛은 2개의 ALU(클럭당 1개의 연산 가능)를 가지며, 클럭당 2개의 부동소수점 연산이 가능하다.

제노스는 다음과 같은 특징을 가진다.

  • 3억 3700만 개의 트랜지스터
  • 10MB eDRAM (프레임 버퍼, 500MHz, 90nm 공정)
  • * NEC에서 개발한 eDRAM 다이에는 색상, 알파 블렌딩, Z 버퍼, 스텐실 버퍼, 안티 앨리어싱(AA)을 위한 장치가 포함되어 있다.[1]
  • * 1억 500만 개의 트랜지스터[6]
  • * 8개의 ROP(랜더 출력 장치)
  • ** 최대 픽셀 필레이트: 초당 4기가픽셀 (8 ROP x 500 MHz)
  • ** 최대 Z 샘플레이트: 초당 8기가샘플 (2 Z 샘플 x 8 ROP x 500 MHz), 4X AA시 초당 32기가 샘플 (2 Z 샘플 x 8 ROP x 4X AA x 500 MHz)[1]
  • ** 최대 AA(앤티에일리어싱) 샘플레이트: 초당 16기가샘플 (4 AA 샘플 x 8 ROP x 500 MHz)[1]
  • 500MHz GPU: TSMC 90nm 공정, 2억 3200만 개의 트랜지스터
  • * 48개의 통합 셰이더 장치
  • ** 한 사이클, 한 유닛당 10FLOPS
  • ** 최대 버텍스 수: 초당 15억 버텍스 ((48 셰이더 x 500 MHz) / 16)
  • ** 최대 폴리곤 수: 초당 5억 폴리곤 (15억 버텍스/ 폴리곤당 3버텍스)
  • ** 최대 셰이더 연산: 초당 480억 (2 ALU x 48 셰이더 x 500 MHz)
  • ** 240GFLOPS (10 FLOPS x 48 셰이더 x 500 MHz)
  • ** MEMEXPORT 셰이더 함수
  • * 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)
  • ** 클럭당 16개의 샘플 필터링 가능
  • ** 최대 텍셀 필레이트: 초당 8기가텍셀 ((16 텍스처 x 500 MHz)
  • * 최대 도트 프로덕트 연산: 초당 240억
  • * 셰이더 모델 3.0: 다이렉트X 9.0c 지원


테라 스케일 마이크로아키텍처는 이 칩을 기반으로 하며, 셰이더 유닛은 그룹당 16개의 프로세서로 구성된 3개의 SIMD 그룹으로 구성되어 총 48개의 프로세서를 갖추고 있다. 이러한 각 프로세서는 5-wide 벡터 유닛(총 5개의 FP32 ALU)으로 구성되어 240개의 유닛을 형성하며, 사이클당 최대 두 개의 명령(곱셈과 덧셈)을 순차적으로 실행할 수 있다. SIMD 그룹의 모든 프로세서는 동일한 명령을 실행하므로, 총 3개의 명령 스레드를 동시에 실행할 수 있다.[3]

이후 공정 개선을 통해 성능 향상 및 전력 소비 감소가 이루어졌다.

  • 90 nm, 65 nm 공정(2008년 이후, 코드명 Gunga) TSMC 공정 또는 45 nm 글로벌파운드리스 공정(2010년 이후, 동일 다이에 CPU 포함), 32 nm 공정(2014년 이후, eDRAM이 동일 다이에 통합)의 총 2억 3200만 개의 트랜지스터, 500 MHz 상위 GPU
  • 셰이더 실행을 위한 240개의 벡터 유닛 부동 소수점 벡터 프로세서, 각 80개 유닛으로 구성된 3개의 동적 스케줄링 SIMD 그룹으로 분할
  • 통합 셰이딩 아키텍처 (각 파이프라인은 픽셀 또는 버텍스 셰이더를 실행할 수 있음)
  • 벡터 프로세서당 사이클당 10 FP 연산 (5개의 융합 곱셈-덧셈)
  • 최대 버텍스 수: 초당 12억 1천만 개의 버텍스
  • 최대 폴리곤 수: 초당 약 5억 개의 폴리곤
  • 최대 셰이더 연산: 초당 2400억 개의 셰이더 연산 (3개의 셰이더 파이프라인 × 80개 유닛 × 2개의 ALU × 0.5 GHz (500 MHz))
  • 240 GFLOPS
  • MEMEXPORT 셰이더 기능
  • 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)
  • 클럭당 16개의 필터링된 샘플
  • 최대 픽셀 채우기 속도: 초당 4.00 기가픽셀
  • 최대 텍셀 채우기 속도: 초당 8.00기가텍셀(16개 텍스처 × 500 MHz)
  • 클럭당 16개의 필터링되지 않은 텍스처 샘플
  • 최대 내적 연산: 초당 240억 개
  • 다이렉트X 9.0c API DirectX Xbox 360 및 셰이더 모델 3.0+의 상위 집합 지원
  • 90 nm, 80 nm (2008년 이후)[4] 또는 65 nm(2010년 이후)[5]의 500 MHz, 10 MB 딸림 내장 DRAM 프레임 버퍼 (256 Gbit/s)
  • NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함되어 있으며, "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱을 제공한다.
  • '''절차적 합성''' 기술(XPS): CPU로 읽기 스트리밍하는 동안, 사용자 지정 프리페치 명령인 확장된 데이터 캐시 블록 터치(xDCBT)는 데이터를 프리페치하여 대상 코어의 L1 데이터 캐시로 직접 전송하므로, L2 캐시에 데이터를 넣지 않아 L2 캐시를 소모하는 것을 방지한다. 각 코어에서 스트리밍되는 쓰기는 L1 캐시를 건너뛰고(고대역폭, 일시적, 쓰기 전용 데이터 스트림의 L1 캐시 소모 방지), L2 캐시로 직접 이동한다. 이 시스템을 통해 GPU는 CPU에서 생성된 데이터를 메인 메모리로 이동하지 않고 직접 읽을 수 있다. 이러한 특정 데이터 스트리밍의 경우, Xbox 절차적 합성(XPS)이라고 하며, CPU는 효과적으로 데이터 압축 해제기 역할을 하여 GPU 3D 코어에서 소비할 기하학적 구조를 즉석에서 생성한다.
  • 8개의 렌더 출력 유닛
  • 최대 픽셀 채우기 속도: 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플; MSAA 없이 초당 4기가픽셀(8개의 ROP × 500 MHz)
  • 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링 지원.[7]
  • 냉각: 콘솔의 GPU와 CPU 모두에 방열판이 있다. GPU의 방열판은 히트 파이프 기술을 사용하여 GPU 및 eDRAM 다이의 열을 방열판의 핀으로 전달한다. 방열판은 한 쌍의 60 mm 배기 팬으로 능동적으로 냉각된다. 새로운 XCGPU 칩셋 재설계는 Xbox 360 S 및 Xbox 360 E 모두에 적용되었으며, CPU(제논)와 GPU(제노스)를 하나의 패키지로 통합하고 두 개가 아닌 하나의 방열판으로 능동적으로 냉각한다.

2. 2. 연산 성능

제노스는 3개의 SIMD 엔진으로 구성되어 있으며, 각 엔진은 16개의 유닛을 가지고 있어 총 48개의 셰이더 유닛으로 이루어져 있다.[3] 각 셰이더 유닛은 클럭당 2개의 부동소수점 연산이 가능한 2개의 ALU를 갖추고 있다.

항목상세 내용
트랜지스터 수3억 3700만 개[3]
eDRAM10MB eDRAM (프레임 버퍼, 500MHz, 90nm 공정)[4]
eDRAM
(추가 기능)
NEC에서 개발, 색상, 알파 블렌딩, Z 버퍼, 스텐실 버퍼, 안티 앨리어싱(AA) 기능 포함[4]
eDRAM
(트랜지스터 수)
1억 500만 개[6]
ROP8개[6]
최대 픽셀 필레이트초당 4기가픽셀 (8 ROP x 500 MHz)[1]
최대 Z 샘플레이트초당 8기가샘플 (2 Z 샘플 x 8 ROP x 500 MHz), 4X AA시 초당 32기가 샘플 (2 Z 샘플 x 8 ROP x 4X AA x 500 MHz)[1]
최대 AA 샘플레이트초당 16기가샘플 (4 AA 샘플 x 8 ROP x 500 MHz)[1]
GPU500MHz (TSMC 90nm 공정, 트랜지스터 2억 3200만 개)[3]
통합 셰이더 장치48개[3]
FLOPS (단위당)사이클당 10 FLOPS[3]
최대 버텍스초당 15억 버텍스 ((48 셰이더 x 500 MHz) / 16)[3]
최대 폴리곤초당 5억 폴리곤 (15억 버텍스 / 폴리곤당 3버텍스)[3]
최대 셰이더 연산초당 480억 (2 ALU x 48 셰이더 x 500 MHz)[3]
GFLOPS240 GFLOPS (10 FLOPS x 48 셰이더 x 500 MHz)[3]
MEMEXPORT 셰이더 함수지원[3]
텍스처 유닛16개 텍스처 필터링 유닛(TF), 16개 텍스처 어드레싱 유닛(TA)[3]
텍스처 필터링클럭당 16개 샘플 필터링 가능[3]
최대 텍셀 필레이트초당 8기가텍셀 (16 텍스처 x 500 MHz)[3]
최대 도트 프로덕트 연산초당 240억[3]
셰이더 모델3.0 (다이렉트X 9.0c 지원)[3]



테라 스케일 마이크로아키텍처는 이 칩을 기반으로 하며, 셰이더 유닛은 그룹당 16개의 프로세서로 구성된 3개의 SIMD 그룹으로 구성되어 총 48개의 프로세서를 갖추고 있다. 각 프로세서는 5-wide 벡터 유닛(총 5개의 FP32 ALU)으로 구성되어 240개의 유닛을 형성하며, 사이클당 최대 두 개의 명령(곱셈과 덧셈)을 순차적으로 실행할 수 있다. SIMD 그룹의 모든 프로세서는 동일한 명령을 실행하므로, 총 3개의 명령 스레드를 동시에 실행할 수 있다.


  • 90 nm, 65 nm(2008년 이후, 코드명 Gunga) TSMC 공정 또는 45 nm 글로벌파운드리스(GlobalFoundries) 공정(2010년 이후, 동일 다이에 CPU 포함)의 총 2억 3200만 개의 트랜지스터, 32 nm 공정(2014년 이후, eDRAM이 동일 다이에 통합)의 500 MHz 상위 GPU[3]
  • 셰이더 실행을 위한 240개의 벡터 유닛 부동 소수점 벡터 프로세서, 각 80개 유닛으로 구성된 3개의 동적 스케줄링 SIMD 그룹으로 분할[3]
  • 통합 셰이딩 아키텍처 (각 파이프라인은 픽셀 또는 버텍스 셰이더를 실행할 수 있음)[3]
  • 벡터 프로세서당 사이클당 10 FP 연산 (5개의 융합 곱셈-덧셈)[3]
  • 최대 버텍스 수: 초당 12억 1천만 개의 버텍스[3]
  • 최대 폴리곤 수: 초당 약 5억 개의 폴리곤[3]
  • 최대 셰이더 연산: 초당 2400억 개의 셰이더 연산 (3개의 셰이더 파이프라인 × 80개 유닛 × 2개의 ALU × 0.5 GHz (500 MHz))[3]
  • 240 GFLOPS[3]
  • MEMEXPORT 셰이더 기능[3]
  • 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)[3]
  • 클럭당 16개의 필터링된 샘플[3]
  • 최대 픽셀 채우기 속도: 초당 4.00 기가픽셀[3]
  • 최대 텍셀 채우기 속도: 초당 8.00기가텍셀(16개 텍스처 × 500 MHz)[3]
  • 클럭당 16개의 필터링되지 않은 텍스처 샘플[3]
  • 최대 내적 연산: 초당 240억 개[3]
  • 다이렉트X 9.0c API DirectX Xbox 360 및 셰이더 모델 3.0+의 상위 집합 지원[3]
  • 90 nm, 80 nm (2008년 이후)[4] 또는 65 nm(2010년 이후)[5]의 500 MHz, 10 MB 딸림 내장 DRAM 프레임 버퍼 (256 Gbit/s)[4]
  • NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함되어 있으며, "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱을 제공한다.[4]
  • '''절차적 합성''' 기술(XPS): CPU로 읽기 스트리밍하는 동안, 사용자 지정 프리페치 명령인 확장된 데이터 캐시 블록 터치(xDCBT)는 데이터를 프리페치하여 대상 코어의 L1 데이터 캐시로 직접 전송하므로, L2 캐시에 데이터를 넣지 않아 L2 캐시를 소모하는 것을 방지한다. 각 코어에서 스트리밍되는 쓰기는 L1 캐시를 건너뛰고(고대역폭, 일시적, 쓰기 전용 데이터 스트림의 L1 캐시 소모 방지), L2 캐시로 직접 이동한다. 이 시스템을 통해 GPU는 CPU에서 생성된 데이터를 메인 메모리로 이동하지 않고 직접 읽을 수 있다. 이러한 특정 데이터 스트리밍의 경우, Xbox 절차적 합성(XPS)이라고 하며, CPU는 효과적으로 데이터 압축 해제기 역할을 하여 GPU 3D 코어에서 소비할 기하학적 구조를 즉석에서 생성한다.[4]
  • 1억 500만 개의 트랜지스터[6]
  • 8개의 렌더 출력 유닛[6]
  • 최대 픽셀 채우기 속도: 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플; MSAA 없이 초당 4기가픽셀(8개의 ROP × 500 MHz)[6]
  • 최대 Z 샘플 속도: 초당 8기가샘플(2개의 Z 샘플 × 8개의 ROP × 500 MHz), 4X 안티앨리어싱을 사용하여 초당 32기가샘플(2개의 Z 샘플 × 8개의 ROP × 4X AA × 500 MHz)[1]
  • 최대 안티앨리어싱 샘플 속도: 초당 16기가샘플(4개의 AA 샘플 × 8개의 ROP × 500 MHz)[1]
  • 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링 지원.[7]

2. 3. 텍스처 처리

셰이더는 3개의 SIMD 엔진으로 구성되어 있으며, 각 엔진은 16개의 유닛으로 총 48개 유닛을 갖추고 있다.[3] 각 셰이더 유닛은 2개의 ALU(클럭당 1개의 연산 가능)를 가지며, 클럭당 2개의 부동소수점 연산이 가능하다.

제노스는 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)을 갖추고 있다.[3] 클럭당 16개의 샘플 필터링이 가능하며, 최대 텍셀 필레이트는 초당 8기가텍셀(16 텍스처 x 500 MHz)이다.

NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함되어 있다. "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱을 제공한다.[4]

'''절차적 합성''' 기술(XPS)은 확장된 데이터 캐시 블록 터치(xDCBT)라는 사용자 지정 프리페치 명령을 통해 데이터를 프리페치하여 대상 코어의 L1 데이터 캐시로 직접 전송한다. 이를 통해 L2 캐시에 데이터를 넣지 않아 L2 캐시 소모를 방지한다. 각 코어에서 스트리밍되는 쓰기는 L1 캐시를 건너뛰고 L2 캐시로 직접 이동한다. 이 시스템을 통해 GPU는 CPU에서 생성된 데이터를 메인 메모리로 이동하지 않고 직접 읽을 수 있다. 이러한 특정 데이터 스트리밍은 Xbox 절차적 합성(XPS)이라고 하며, CPU는 효과적으로 데이터 압축 해제기 역할을 하여 GPU 3D 코어에서 소비할 기하학적 구조를 즉석에서 생성한다.[4]

8개의 렌더 출력 유닛을 갖추고 있으며, 최대 픽셀 채우기 속도는 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플이다. MSAA 없이 초당 4기가픽셀(8개의 ROP × 500 MHz)이다. 최대 Z 샘플 속도는 초당 8기가샘플(2개의 Z 샘플 × 8개의 ROP × 500 MHz)이며, 4X 안티앨리어싱을 사용하면 초당 32기가샘플(2개의 Z 샘플 × 8개의 ROP × 4X AA × 500 MHz)이다.[1] 최대 안티앨리어싱 샘플 속도는 초당 16기가샘플(4개의 AA 샘플 × 8개의 ROP × 500 MHz)이다.[1] 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링을 지원한다.[7]

2. 4. 렌더링 출력

셰이더는 3개의 SIMD 엔진으로 구성되어 있으며, 각 엔진은 16개의 유닛으로 총 48개이다. 각 셰이더 유닛은 2개의 ALU(클럭당 1개의 연산 가능)를 가지며 클럭당 2개의 부동소수점 연산이 가능하다.[3]

  • 10MB eDRAM(embedded DRAM): 프레임 버퍼, 500MHz, 90나노(nm) 공정[4]
  • * NEC에서 개발한 eDRAM 다이에는 색상, 알파 블렌딩, Z 버퍼, 스텐실 버퍼, AA(안티 앨리어싱)를 위한 장치가 포함되어 있다.[6]
  • * 8 ROP(랜더 출력 장치, Render Output unit)
  • ** 최대 픽셀 필레이트: 초당 4기가픽셀(8 ROP x 500 MHz)
  • ** 최대 Z 샘플레이트 : 초당 8기가샘플(2 Z 샘플 x 8 ROP x 500 MHz), 4X AA시 초당 32기가 샘플(2 Z 샘플 x 8 ROP x 4X AA x 500 MHz)
  • ** 최대 AA(앤티에일리어싱) 샘플레이트 : 초당 16기가샘플(4 AA 샘플 x 8 ROP x 500 MHz)[1]
  • 500MHz GPU : TSMC 90나노 공정
  • * 48개의 통합 셰이더 장치
  • ** 최대 버텍스 수 : 초당 15억 버텍스((48 셰이더 x 500 MHz) / 16)
  • ** 최대 폴리곤 수 : 초당 5억 폴리곤(15억 버텍스/ 폴리곤당 3버텍스)
  • ** 최대 셰이더 연산 : 초당 480억(2 ALU x 48 셰이더 x 500 MHz)
  • ** 240GFLOPS(10 FLOPS x 48 셰이더 x 500 MHz)
  • ** MEMEXPORT 셰이더 함수
  • * 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)
  • ** 최대 텍셀 필레이트 : 초당 8기가텍셀((16 텍스처 x 500 MHz)
  • * 최대 도트 프로덕트 연산 : 초당 240억
  • * 셰이더 모델 3.0 : 다이렉트X 9.0c 지원

테라스케일 마이크로아키텍처는 이 칩을 기반으로 하며, 셰이더 유닛은 그룹당 16개의 프로세서로 구성된 3개의 SIMD 그룹으로 구성되어 총 48개의 프로세서를 갖추고 있다. 이러한 각 프로세서는 5-wide 벡터 유닛(총 5개의 FP32 ALU)으로 구성되어 240개의 유닛을 형성하며, 사이클당 최대 두 개의 명령(곱셈과 덧셈)을 순차적으로 실행할 수 있다. SIMD 그룹의 모든 프로세서는 동일한 명령을 실행하므로, 총 3개의 명령 스레드를 동시에 실행할 수 있다.[3]

  • 90 nm, 65 nm(2008년 이후, 코드명 Gunga) TSMC 공정 또는 45 nm 글로벌파운드리스(GlobalFoundries) 공정(2010년 이후, 동일 다이에 CPU 포함)의 총 2억 3200만 개의 트랜지스터, 32 nm 공정(2014년 이후, eDRAM이 동일 다이에 통합)의 500 MHz 상위 GPU
  • 셰이더 실행을 위한 240개의 벡터 유닛 부동 소수점 벡터 프로세서, 각 80개 유닛으로 구성된 3개의 동적 스케줄링 SIMD 그룹으로 분할
  • 통합 셰이딩 아키텍처 (각 파이프라인은 픽셀 또는 버텍스 셰이더를 실행할 수 있음)
  • 벡터 프로세서당 사이클당 10 FP 연산 (5개의 융합 곱셈-덧셈)
  • 최대 버텍스 수: 초당 12억 1천만 개의 버텍스
  • 최대 폴리곤 수: 초당 약 5억 개의 폴리곤
  • 최대 셰이더 연산: 초당 2400억 개의 셰이더 연산 (3개의 셰이더 파이프라인 × 80개 유닛 × 2개의 ALU × 0.5 GHz (500 MHz))
  • 240 GFLOPS
  • MEMEXPORT 셰이더 기능
  • 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)
  • 클럭당 16개의 필터링된 샘플
  • 최대 픽셀 채우기 속도: 초당 4.00 기가픽셀
  • 최대 텍셀 채우기 속도: 초당 8.00기가텍셀(16개 텍스처 × 500 MHz)
  • 클럭당 16개의 필터링되지 않은 텍스처 샘플
  • 최대 내적 연산: 초당 240억 개
  • 다이렉트X 9.0c API DirectX Xbox 360 및 셰이더 모델 3.0+의 상위 집합 지원
  • 90 nm, 80 nm (2008년 이후)[4] 또는 65 nm(2010년 이후)[5]의 500 MHz, 10 MB 딸림 내장 DRAM 프레임 버퍼 (256 Gbit/s)
  • NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함되어 있으며, "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱을 제공한다.
  • '''절차적 합성''' 기술(XPS): CPU로 읽기 스트리밍하는 동안, 사용자 지정 프리페치 명령인 확장된 데이터 캐시 블록 터치(xDCBT)는 데이터를 프리페치하여 대상 코어의 L1 데이터 캐시로 직접 전송하므로, L2 캐시에 데이터를 넣지 않아 L2 캐시를 소모하는 것을 방지한다. 각 코어에서 스트리밍되는 쓰기는 L1 캐시를 건너뛰고(고대역폭, 일시적, 쓰기 전용 데이터 스트림의 L1 캐시 소모 방지), L2 캐시로 직접 이동한다. 이 시스템을 통해 GPU는 CPU에서 생성된 데이터를 메인 메모리로 이동하지 않고 직접 읽을 수 있다. 이러한 특정 데이터 스트리밍의 경우, Xbox 절차적 합성(XPS)이라고 하며, CPU는 효과적으로 데이터 압축 해제기 역할을 하여 GPU 3D 코어에서 소비할 기하학적 구조를 즉석에서 생성한다.
  • 8개의 렌더 출력 유닛
  • 최대 픽셀 채우기 속도: 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플; MSAA 없이 초당 4기가픽셀(8개의 ROP × 500 MHz)
  • 최대 Z 샘플 속도: 초당 8기가샘플(2개의 Z 샘플 × 8개의 ROP × 500 MHz), 4X 안티앨리어싱을 사용하여 초당 32기가샘플(2개의 Z 샘플 × 8개의 ROP × 4X AA × 500 MHz)[1]
  • 최대 안티앨리어싱 샘플 속도: 초당 16기가샘플(4개의 AA 샘플 × 8개의 ROP × 500 MHz)[1]
  • 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링 지원.[7]
  • 냉각: 콘솔의 GPU와 CPU 모두에 방열판이 있다. GPU의 방열판은 히트 파이프 기술을 사용하여 GPU 및 eDRAM 다이의 열을 방열판의 핀으로 전달한다. 방열판은 한 쌍의 60 mm 배기 팬으로 능동적으로 냉각된다. 새로운 XCGPU 칩셋 재설계는 Xbox 360 S 및 Xbox 360 E 모두에 적용되었으며, CPU(제논)와 GPU(제노스)를 하나의 패키지로 통합하고 두 개가 아닌 하나의 방열판으로 능동적으로 냉각한다.

2. 5. eDRAM

NEC에서 개발한 10MB eDRAM은 90나노 공정으로 만들어졌으며, 프레임 버퍼 역할을 한다. 500MHz로 작동하며, 색상, 알파 블렌딩, Z 버퍼, 스텐실 버퍼, 안티 앨리어싱(AA)을 위한 장치가 포함되어 있다.[1] eDRAM은 1.05억 개의 트랜지스터로 구성되어 있다.

eDRAM 다이에는 "Intelligent Memory"라는 추가 로직(192개의 병렬 픽셀 프로세서)이 포함되어 있어 개발자는 매우 적은 성능 비용으로 4-샘플 공간적 안티앨리어싱을 사용할 수 있다.[6]

  • 8개의 ROP(랜더 출력 장치)를 가지고 있다.
  • 최대 픽셀 필레이트: 초당 4기가픽셀 (8 ROP x 500 MHz)
  • 최대 Z 샘플레이트: 초당 8기가샘플 (2 Z 샘플 x 8 ROP x 500 MHz), 4X AA시 초당 32기가 샘플 (2 Z 샘플 x 8 ROP x 4X AA x 500 MHz)[1]
  • 최대 AA(앤티에일리어싱) 샘플레이트: 초당 16기가샘플 (4 AA 샘플 x 8 ROP x 500 MHz)[1]


2008년 이후에는 80nm 공정,[4] 2010년 이후에는 65nm 공정으로 제조되었다.[5]

2. 6. 기타

테라 스케일 마이크로아키텍처를 기반으로 하는 이 칩은 셰이더 유닛이 그룹당 16개의 프로세서로 구성된 3개의 SIMD 그룹으로 이루어져 총 48개의 프로세서를 갖추고 있다. 각 프로세서는 5-wide 벡터 유닛(총 5개의 FP32 ALU)으로 구성되어 240개의 유닛을 형성하며, 사이클당 최대 두 개의 명령(곱셈과 덧셈)을 순차적으로 실행할 수 있다. SIMD 그룹의 모든 프로세서는 동일한 명령을 실행하므로, 총 3개의 명령 스레드를 동시에 실행할 수 있다.[3]

  • 90 nm, 65 nm(2008년 이후, 코드명 Gunga) TSMC 공정 또는 45 nm 글로벌파운드리스(GlobalFoundries) 공정(2010년 이후, 동일 다이에 CPU 포함)을 거쳐, 32 nm 공정(2014년 이후, eDRAM이 동일 다이에 통합)에 이르기까지 총 2억 3200만 개의 트랜지스터를 가진 500 MHz 상위 GPU이다.
  • 셰이더 실행을 위한 240개의 벡터 유닛 부동 소수점 벡터 프로세서가 있으며, 각 80개 유닛으로 구성된 3개의 동적 스케줄링 SIMD 그룹으로 나뉜다.[3]
  • 통합 셰이딩 아키텍처 (각 파이프라인은 픽셀 또는 버텍스 셰이더를 실행)
  • 벡터 프로세서당 사이클당 10 FP 연산 (5개의 융합 곱셈-덧셈)
  • 최대 버텍스 수: 초당 12억 1천만 개
  • 최대 폴리곤 수: 초당 약 5억 개
  • 최대 셰이더 연산: 초당 2400억 개 (3개의 셰이더 파이프라인 × 80개 유닛 × 2개의 ALU × 0.5 GHz (500 MHz))
  • 240 GFLOPS
  • MEMEXPORT 셰이더 기능
  • 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA)
  • 클럭당 16개의 필터링된 샘플
  • 최대 픽셀 채우기 속도: 초당 4.00 기가픽셀
  • 최대 텍셀 채우기 속도: 초당 8.00기가텍셀(16개 텍스처 × 500 MHz)
  • 클럭당 16개의 필터링되지 않은 텍스처 샘플
  • 최대 내적 연산: 초당 240억 개
  • 다이렉트X 9.0c API DirectX Xbox 360 및 셰이더 모델 3.0+의 상위 집합 지원
  • 90 nm, 80 nm (2008년 이후)[4] 또는 65 nm(2010년 이후)[5]의 500 MHz, 10 MB 딸림 내장 DRAM 프레임 버퍼 (256 Gbit/s)
  • NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함되어 있다. "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱을 제공한다.
  • '''절차적 합성''' 기술(XPS): CPU로 읽기 스트리밍하는 동안, 사용자 지정 프리페치 명령인 확장된 데이터 캐시 블록 터치(xDCBT)는 데이터를 프리페치하여 대상 코어의 L1 데이터 캐시로 직접 전송한다. 이는 L2 캐시에 데이터를 넣지 않아 L2 캐시를 소모하는 것을 방지한다. 각 코어에서 스트리밍되는 쓰기는 L1 캐시를 건너뛰고(고대역폭, 일시적, 쓰기 전용 데이터 스트림의 L1 캐시 소모 방지), L2 캐시로 직접 이동한다. 이 시스템을 통해 GPU는 CPU에서 생성된 데이터를 메인 메모리로 이동하지 않고 직접 읽을 수 있다. 이러한 특정 데이터 스트리밍은 Xbox 절차적 합성(XPS)이라고 하며, CPU는 효과적으로 데이터 압축 해제기 역할을 하여 GPU 3D 코어에서 소비할 기하학적 구조를 즉석에서 생성한다.
  • 1억 500만 개의 트랜지스터[6]
  • 8개의 렌더 출력 유닛
  • 최대 픽셀 채우기 속도: 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플; MSAA 없이 초당 4기가픽셀(8개의 ROP × 500 MHz)
  • 최대 Z 샘플 속도: 초당 8기가샘플(2개의 Z 샘플 × 8개의 ROP × 500 MHz), 4X 안티앨리어싱을 사용하여 초당 32기가샘플(2개의 Z 샘플 × 8개의 ROP × 4X AA × 500 MHz)[1]
  • 최대 안티앨리어싱 샘플 속도: 초당 16기가샘플(4개의 AA 샘플 × 8개의 ROP × 500 MHz)[1]
  • 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링 지원.[7]
  • 냉각: 콘솔의 GPU와 CPU 모두에 방열판이 있다. GPU의 방열판은 히트 파이프 기술을 사용하여 GPU 및 eDRAM 다이의 열을 방열판의 핀으로 전달한다. 방열판은 한 쌍의 60 mm 배기 팬으로 능동적으로 냉각된다. 새로운 XCGPU 칩셋 재설계는 Xbox 360 S 및 Xbox 360 E 모두에 적용되었으며, CPU(제논)와 GPU(제노스)를 하나의 패키지로 통합하고 두 개가 아닌 하나의 방열판으로 능동적으로 냉각한다.

2. 7. 공정 변화

테라 스케일 마이크로아키텍처(TeraScale microarchitecture) 기반의 이 칩은 셰이더 유닛이 그룹당 16개의 프로세서로 구성된 3개의 SIMD 그룹으로 구성되어 총 48개의 프로세서를 갖추고 있다. 각 프로세서는 5-wide 벡터 유닛(총 5개의 FP32 ALU)으로 구성되어 240개의 유닛을 형성하며, 사이클당 최대 두 개의 명령(곱셈과 덧셈)을 순차적으로 실행할 수 있다. SIMD 그룹의 모든 프로세서는 동일한 명령을 실행하므로, 총 3개의 명령 스레드를 동시에 실행할 수 있다.

제노스는 여러 공정을 거쳐 생산되었다.

공정트랜지스터 수특징
90 nm, 65 nm(2008년 이후, 코드명 Gunga) TSMC 공정 또는 45 nm 글로벌파운드리스(GlobalFoundries) 공정(2010년 이후, 동일 다이에 CPU 포함)2억 3200만 개500MHz 상위 GPU, 240개의 벡터 유닛 부동 소수점 벡터 프로세서 (3개의 동적 스케줄링 SIMD 그룹, 각 80개 유닛), 통합 셰이딩 아키텍처, 최대 초당 12억 1천만 개의 버텍스, 최대 초당 약 5억 개의 폴리곤, 최대 초당 2400억 개의 셰이더 연산, 240 GFLOPS, MEMEXPORT 셰이더 기능, 16개의 텍스처 필터링 유닛(TF)과 16개의 텍스처 어드레싱 유닛(TA), 최대 픽셀 채우기 속도: 초당 4.00 기가픽셀, 최대 텍셀 채우기 속도: 초당 8.00기가텍셀, 최대 내적 연산: 초당 240억 개, 다이렉트X 9.0c API DirectX Xbox 360 및 셰이더 모델 3.0+의 상위 집합 지원
90 nm, 80 nm (2008년 이후)[4] 또는 65 nm(2010년 이후)[5]1억 500만 개[6]500MHz, 10 MB 딸림 내장 DRAM 프레임 버퍼 (256 Gbit/s), NEC에서 설계한 eDRAM 다이에는 색상, 알파 합성, 알파 블렌딩, Z/스텐실 버퍼링 및 안티앨리어싱을 위한 추가 로직(192개의 병렬 픽셀 프로세서)이 포함, "Intelligent Memory"라는 이름으로 개발자에게 매우 적은 성능 비용으로 4-샘플 안티앨리어싱 제공, 절차적 합성 기술(XPS), 8개의 렌더 출력 유닛, 최대 픽셀 채우기 속도: 4X 멀티샘플 안티앨리어싱(MSAA)을 사용하여 초당 16기가샘플 채우기 속도 또는 Z-전용 연산을 사용하여 32기가샘플; MSAA 없이 초당 4기가픽셀, 최대 Z 샘플 속도: 초당 8기가샘플, 4X 안티앨리어싱을 사용하여 초당 32기가샘플[1], 최대 안티앨리어싱 샘플 속도: 초당 16기가샘플[1], 양선형, 삼선형, 이방성 필터링, 알파 투 커버리지, 하드웨어 테셀레이션 및 예측 타일링 지원.[7]
32 nm 공정(2014년 이후)eDRAM이 동일 다이에 통합



냉각을 위해 콘솔의 GPU와 CPU 모두에 방열판이 있으며, GPU의 방열판은 히트 파이프 기술을 사용하여 GPU 및 eDRAM 다이의 열을 방열판의 핀으로 전달한다. 방열판은 한 쌍의 60mm 배기 팬으로 능동적으로 냉각된다. 새로운 XCGPU 칩셋 재설계는 Xbox 360 S 및 Xbox 360 E 모두에 적용되었으며, CPU(제논)와 GPU(제노스)를 하나의 패키지로 통합하고 두 개가 아닌 하나의 방열판으로 능동적으로 냉각한다.

참조

[1] 웹사이트 ATI Xenos: Xbox 360 Graphics Demystified http://www.beyond3d.[...] Beyond3D 2006-04-11
[2] 웹사이트 ATI Xenos Xenon GPU Specs https://www.techpowe[...] 2021-12-22
[3] 웹사이트 Xbox 360 hardware specifications http://www.xbox.com/[...]
[4] 웹사이트 Welcome to Valhalla - Inside the New 250GB XBox 360 Slim http://www.anandtech[...] Anandtech
[5] 웹사이트 Tech Report: A Look At The eDRAM On Valhalla http://imagequalitym[...] Image Quality Matters 2010-07-09
[6] 문서 ATI engineers by way of Beyond 3D's Dave Baumann.
[7] 웹사이트 XNA Game Studio 4.0 Refresh https://msdn.microso[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com