서밋 (슈퍼컴퓨터)
1. 개요
서밋은 미국 에너지부와 IBM, 엔비디아, 멜라녹스가 협력하여 구축한 슈퍼컴퓨터이다. 2018년 6월 25일 TOP500에서 122.3PFLOPS로 1위를 차지하며, 5년 만에 슈퍼컴퓨터 1위 자리를 탈환했으나, 2020년 6월 후지쯔의 후가쿠에 의해 1위 자리를 내주었다. 오크리지 국립 연구소에 설치되어 에너지, 인공지능, 인간 건강 등 다양한 연구 분야에 활용되며, 지진 시뮬레이션, 극한 기상 시뮬레이션, 재료 과학, 유전체학 등에 사용되었다. 4,608개의 노드로 구성되어 있으며, 각 노드는 IBM POWER9 CPU 2개와 Nvidia Tesla GPU 6개를 포함한다.
2. 역사
미국 에너지부는 2014년 11월에 IBM, 엔비디아, 멜라녹스와 325 규모의 계약을 체결하여 서밋(Summit)과 시에라를 건설했다. 서밋은 민간 과학 연구를 위해 테네시주 오크리지 국립 연구소에 설치되었고, 시에라는 핵무기 시뮬레이션을 위해 캘리포니아주 로렌스 리버모어 국립 연구소에 설치되었다.
2015년에는 오크리지, 아르곤, 로렌스 리버모어의 협력(CORAL) 프로젝트를 통해 아르곤 국립 연구소에 오로라라는 세 번째 슈퍼컴퓨터를 설치할 계획을 세웠다.
2014년 2월, 미국 에너지부는 아르곤 국립 연구소(ANL), 오크리지 국립 연구소(ORNL), 로렌스 리버모어 국립 연구소(LLNL)의 3개 국립 연구소가 참여하는 CORAL(Collaboration of Oak Ridge, Argonne and Livermore) 프로젝트를 시작했으며, 2017년에 100~200 페타플롭스를 목표로 했다.
2014년 11월, NVIDIA 및 Mellanox와 협력하여 OpenPower 기반 시스템을 제시한 IBM이 CORAL 프로젝트의 일환으로 ORNL용 Summit 및 LLNL용 Sierra 슈퍼컴퓨터 구축을 325에 수주했다.
2018년 6월 8일, 미국 에너지부와 IBM은 서밋을 200PFLOPS로 세계에서 가장 빠르다고 발표했다. 2018년 6월 25일 TOP500 발표에서 122.3PFLOPS로 1위를 차지하며, 5년 만에 중화인민공화국 (톈허 2호, 선웨이·타이후之광)으로부터 슈퍼컴퓨터 1위 자리를 탈환했다.
2020년 6월, 후지쯔의 슈퍼컴퓨터 "후가쿠"가 415.53PFLOPS를 기록하여 서밋은 1위에서 물러났다.
CORAL 프로젝트 전체 개요는 다음과 같다.
| 연구소 | 슈퍼컴퓨터 | 성능(예정) | 완료 년도 |
|---|---|---|---|
| 오크리지 국립 연구소(ORNL) | 타이탄에서 Summit으로 이행 | 200 PFLOPS | 2018년 6월 |
| 로렌스 리버모어 국립 연구소(LLNL) | 세쿼이아에서 Sierra으로 이행 | 125 PFLOPS | 2018년 |
| 아르곤 국립 연구소(ANL) | Mira에서 Aurora로 이행 | 1,000 PFLOPS | 2021년 |
3. 설계
서밋은 4,608개의 노드로 구성되어 있으며, 각 노드는 다음과 같은 특징을 갖는다.
* 2개의 IBM POWER9 CPU
* 6개의 Nvidia Tesla GPU
* 600GB 이상의 일관된 메모리(96GB HBM2 및 512GB DDR4)
* 800GB의 비휘발성 RAM (버스트 버퍼 또는 확장 메모리로 사용 가능)
POWER9 CPU와 Nvidia Volta GPU는 Nvidia의 고속 NVLink를 사용하여 연결된다. 이는 이종 컴퓨팅 모델을 허용한다.
노드는 이중 레일 Mellanox EDR 인피니밴드 상호 연결을 사용하여 비차단 팻 트리 토폴로지로 연결되어 스토리지 및 프로세스 간 통신 트래픽 모두에 사용되며, 노드 간 200Gbit/s 대역폭과 MPI 및 SHMEM/PGAS와 같은 통신 프레임워크를 위한 네트워크 내 컴퓨팅 가속을 제공한다.
서밋의 스토리지는 빠른 시스템 내 계층과 센터 전체 병렬 파일 시스템 계층을 가지고 있다. 시스템 내 계층은 각 노드의 SSD를 사용하여 빠른 스토리지를 위해 최적화되어 있으며, 센터 전체 병렬 파일 시스템은 하드 드라이브에 저장된 데이터에 쉽게 접근할 수 있도록 한다. 두 계층은 원활하게 함께 작동하므로 사용자는 스토리지 요구 사항을 구별할 필요가 없다. 센터 전체 병렬 파일 시스템은 GPFS (IBM Storage Scale)이다. 250PB의 스토리지를 제공한다.