벤치마크 (컴퓨팅)

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

벤치마크는 컴퓨터 시스템의 성능을 평가하고 비교하기 위해 사용되는 일련의 테스트이다. 클럭 주파수와 같은 사양만으로는 성능을 정확하게 비교하기 어려워, 실제 워크로드를 모방하는 벤치마크가 개발되었다. 벤치마크는 CPU 설계에 중요한 역할을 하며, 마이크로아키텍처 결정을 측정하고 개선하는 데 사용된다. 벤치마크는 관련성, 대표성, 공정성, 재현성, 비용 효율성, 확장성 및 투명성이라는 7가지 주요 특성을 만족해야 한다. 벤치마크는 실제 프로그램, 구성 요소, 커널, 합성, I/O, 데이터베이스, 병렬 벤치마크 등 다양한 유형으로 나뉜다. 벤치마킹은 공급업체의 조정, 벤치마크 조작, 서비스 품질 및 총 소유 비용 미고려, 시설 부담 미고려 등 여러 문제점을 안고 있으며, 이러한 문제점을 해결하기 위해 산업 표준 벤치마크와 오픈 소스 벤치마크가 사용된다. 벤치마크는 컴퓨터 외 건축, 측량 및 자동차 산업에서도 사용된다.

더 읽어볼만한 페이지

컴퓨터 벤치마크 - 플롭스
플롭스(FLOPS)는 컴퓨터의 부동 소수점 연산 속도를 나타내는 단위이며, 슈퍼컴퓨터의 성능을 평가하는 지표로 사용된다.
컴퓨터 벤치마크 - 윈도우 시스템 평가 도구
윈도우 시스템 평가 도구는 윈도우 비스타부터 도입된 시스템 성능 측정 도구로, CPU, 메모리, 그래픽 등 하드웨어 및 소프트웨어 구성 요소의 성능을 평가하여 윈도우 체험 지수를 제공한다.
표시 이름과 문서 제목이 같은 위키공용분류 - 라우토카
라우토카는 피지 비치레부섬 서부에 위치한 피지에서 두 번째로 큰 도시이자 서부 지방의 행정 중심지로, 사탕수수 산업이 발달하여 "설탕 도시"로 알려져 있으며, 인도에서 온 계약 노동자들의 거주와 미 해군 기지 건설의 역사를 가지고 있고, 피지 산업 생산의 상당 부분을 담당하는 주요 기관들이 위치해 있다.
표시 이름과 문서 제목이 같은 위키공용분류 - 코코넛
코코넛은 코코넛 야자나무의 열매로 식용 및 유지로 사용되며, 조리되지 않은 과육은 100g당 354kcal의 열량을 내는 다양한 영양 성분으로 구성되어 있고, 코코넛 파우더의 식이섬유는 대부분 불용성 식이섬유인 셀룰로오스이며, 태국 일부 지역에서는 코코넛 수확에 훈련된 원숭이를 이용하는 동물 학대 문제가 있다.
한국어 위키백과의 링크가 위키데이터와 같은 위키공용분류 - 라우토카
라우토카는 피지 비치레부섬 서부에 위치한 피지에서 두 번째로 큰 도시이자 서부 지방의 행정 중심지로, 사탕수수 산업이 발달하여 "설탕 도시"로 알려져 있으며, 인도에서 온 계약 노동자들의 거주와 미 해군 기지 건설의 역사를 가지고 있고, 피지 산업 생산의 상당 부분을 담당하는 주요 기관들이 위치해 있다.
한국어 위키백과의 링크가 위키데이터와 같은 위키공용분류 - 코코넛
코코넛은 코코넛 야자나무의 열매로 식용 및 유지로 사용되며, 조리되지 않은 과육은 100g당 354kcal의 열량을 내는 다양한 영양 성분으로 구성되어 있고, 코코넛 파우더의 식이섬유는 대부분 불용성 식이섬유인 셀룰로오스이며, 태국 일부 지역에서는 코코넛 수확에 훈련된 원숭이를 이용하는 동물 학대 문제가 있다.

벤치마크 (컴퓨팅)

2. 벤치마킹의 목적 및 중요성

컴퓨터 컴퓨터 아키텍처가 발전함에 따라, 사양만으로는 다양한 컴퓨터 시스템의 실제 성능을 비교하기가 어려워졌다. 예를 들어, 펜티엄 4 프로세서는 애슬론 XP나 PowerPC 프로세서보다 일반적으로 더 높은 클럭 주파수로 작동했지만, 이것이 반드시 더 많은 연산 능력을 의미하지는 않았다. 클럭 주파수가 낮은 프로세서가 더 높은 주파수로 작동하는 프로세서만큼, 또는 그보다 더 나은 성능을 낼 수 있기 때문이다. (보고밉스 및 메가헤르츠 신화 참조)

벤치마크는 서로 다른 부품 구성이나 아키텍처를 가지고 있어 스펙 등으로 직접적인 성능 비교가 불가능한 시스템 간의 다양한 관점에서 성능을 비교하는 수단을 제공한다. 벤치마크는 구성 요소 또는 시스템에서 특정 유형의 워크로드를 모방하도록 설계된다. 합성 벤치마크는 구성 요소에 워크로드를 가하는 특별히 생성된 프로그램으로 이를 수행하며, 애플리케이션 벤치마크는 시스템에서 실제 프로그램을 실행한다. 애플리케이션 벤치마크는 일반적으로 주어진 시스템에서 실제 성능을 훨씬 더 잘 측정하지만, 합성 벤치마크는 하드 디스크 또는 네트워킹 장치와 같은 개별 구성 요소를 테스트하는 데 유용하다.

벤치마크는 CPU 설계에서 특히 중요하며, 프로세서 설계자에게 마이크로아키텍처 결정을 측정하고 절충할 수 있는 능력을 제공한다. 예를 들어, 벤치마크가 애플리케이션의 주요 알고리즘을 추출하면 해당 애플리케이션의 성능에 민감한 측면을 포함하게 된다. 이 훨씬 작은 스니펫을 사이클 정확 시뮬레이터에서 실행하면 성능을 개선하는 방법에 대한 단서를 얻을 수 있다.

2000년 이전에는 컴퓨터 및 마이크로프로세서 설계자들이 SPEC을 사용했지만, SPEC의 유닉스 기반 벤치마크는 매우 길어서 온전히 사용하기가 어려웠다. 1998년, Markus Levy와 반도체 기업 12개사는 EEMBC(''Embedded Microprocessor Benchmark Consortium'', 임베디드 마이크로프로세서 벤치마크 협회)를 설립하여 임베디드 시장용 벤치마크를 표준화했다.

컴퓨터 제조업체는 실제 사용에서 재현되지 않는 벤치마크 테스트에서 비현실적으로 높은 성능을 내도록 시스템을 구성하는 것으로 알려져 있다. 예를 들어, 1980년대에는 일부 컴파일러가 잘 알려진 부동 소수점 벤치마크에서 사용되는 특정 수학적 연산을 감지하여 그 연산을 더 빠른 수학적으로 동등한 연산으로 대체할 수 있었다. 벤치마크는 이제 컴파일러 회사가 자체 벤치마크 점수뿐만 아니라 실제 애플리케이션 성능을 개선하기 위해 정기적으로 사용된다.

슈퍼스칼라 CPU, VLIW CPU 또는 재구성 가능 컴퓨팅 CPU와 같이 많은 실행 유닛을 가진 CPU는 똑같이 빠른 트랜지스터로 제작되었을 때 하나 또는 두 개의 실행 유닛이 있는 순차적 CPU보다 일반적으로 느린 클럭 속도를 가진다. 그럼에도 불구하고 많은 실행 유닛을 가진 CPU는 종종 더 빠르다고 여겨지는 고클럭 속도 CPU보다 실제 및 벤치마크 작업을 더 짧은 시간에 완료한다.

사용 가능한 벤치마크가 많으므로, 제조업체는 일반적으로 자사 시스템이 다른 시스템보다 성능이 우수함을 보여주는 벤치마크를 최소 하나는 찾을 수 있다. 이러한 관행을 모두 합쳐서 ''벤치마케팅''이라고 한다.

3. 벤치마킹의 원칙

벤치마크는 다음과 같은 7가지 주요 특성을 만족해야 한다.^[16]^[6]

# 관련성: 벤치마크는 상대적으로 중요한 기능을 측정해야 한다.

# 대표성: 벤치마크 성능 지표는 업계와 학계에서 널리 받아들여져야 한다.

# 공정성: 모든 시스템을 공정하게 비교해야 한다.

# 재현성: 벤치마크 결과를 검증할 수 있어야 한다.

# 비용 효율성: 벤치마크 테스트는 경제적이어야 한다.

# 확장성: 벤치마크 테스트는 낮음에서 높음에 이르기까지 다양한 리소스를 가진 시스템에서 작동해야 한다.

# 투명성: 벤치마크 지표는 이해하기 쉬워야 한다.

이러한 원칙들은 벤치마크 결과의 신뢰성과 유용성을 보장하는 데 필수적이다.

4. 벤치마크 유형

벤치마크는 다음과 같이 여러 유형으로 분류할 수 있다.

'''실제 프로그램 벤치마크'''

실제 프로그램 벤치마크는 워드 프로세서 소프트웨어, CAD 도구, 사용자 응용 소프트웨어(예: MIS), 비디오 게임, 크로미엄 브라우저 또는 리눅스 커널과 같은 대규모 프로젝트를 빌드하는 컴파일러 등을 포함한다.^[17] 이러한 벤치마크는 실제 사용 환경을 반영하여 시스템의 전반적인 성능을 평가하는 데 유용하다.

'''구성 요소 벤치마크 (마이크로벤치마크)'''

구성 요소 벤치마크는 코어 루틴을 사용하여 컴퓨터 기본 부품의 성능을 측정한다.^[17] 레지스터 수, 캐시 크기, 메모리 대기 시간 등 컴퓨터의 하드웨어 변수를 자동으로 감지하는 데 사용될 수 있다. 이러한 벤치마크는 시스템의 특정 구성 요소(CPU, 메모리, 저장 장치 등)의 성능을 집중적으로 평가하는 데 적합하다.

'''커널 벤치마크'''

커널 벤치마크는 핵심 코드를 포함하며, 일반적으로 실제 프로그램에서 추상화된다.^[17] 대중화된 커널 벤치마크로는 리버모어 루프와 린팩(linpack) 벤치마크가 있다. 린팩 벤치마크는 FORTRAN 언어로 작성된 기본 선형 대수 서브루틴을 포함하며, 결과는 Mflop/s로 표시된다.

'''합성 벤치마크'''

합성 벤치마크는 실제 프로그램의 작업 통계를 바탕으로 각 작업의 비율에 따라 프로그램을 작성하는 방식이다.^[17] Whetstone과 Dhrystone 등이 대표적인 예시이다.

합성 벤치마크 프로그래밍 절차는 다음과 같다.

#* 많은 응용 프로그램에서 모든 유형의 연산 통계를 가져옴

#* 각 연산의 비율을 구함

#* 위의 비율을 기반으로 프로그램을 작성

이들은 최초의 범용 산업 표준 컴퓨터 벤치마크였으나, 최신 파이프라인 컴퓨터에서는 반드시 높은 점수를 얻는 것은 아니다.

'''입출력(I/O) 벤치마크'''

입출력(I/O) 벤치마크는 저장 장치 등의 성능을 측정하는 데 사용된다.

'''데이터베이스 벤치마크'''

데이터베이스 관리 시스템(DBMS)의 처리량 및 응답 시간을 측정한다.

'''병렬 벤치마크'''

병렬 벤치마크는 여러 코어 및/또는 프로세서가 있는 기계 또는 여러 기계로 구성된 시스템에 사용된다.

4. 1. 실제 프로그램 벤치마크

실제 프로그램 벤치마크는 워드 프로세싱 소프트웨어, CAD 도구, 사용자 응용 소프트웨어(예: MIS), 비디오 게임, 대규모 프로젝트를 빌드하는 컴파일러(예: 크로미엄 브라우저 또는 리눅스 커널) 등을 포함한다.^[17] 이러한 벤치마크는 실제 사용 환경을 반영하여 시스템의 전반적인 성능을 평가하는 데 유용하다.

4. 2. 구성 요소 벤치마크 (마이크로벤치마크)

구성 요소 벤치마크는 코어 루틴을 사용하여 컴퓨터 기본 부품의 성능을 측정한다.^[17] 레지스터 수, 캐시 크기, 메모리 레이턴시 등 컴퓨터의 하드웨어 변수를 자동으로 감지하는 데 사용될 수 있다. 이러한 벤치마크는 시스템의 특정 구성 요소(CPU, 메모리, 저장 장치 등)의 성능을 집중적으로 평가하는 데 적합하다.

4. 3. 커널 벤치마크

커널 벤치마크는 핵심 코드를 포함하며, 일반적으로 실제 프로그램에서 추상화된다.^[17] 대중화된 커널 벤치마크로는 리버모어 루프와 린팩(linpack) 벤치마크가 있다. 린팩 벤치마크는 FORTRAN 언어로 작성된 기본 선형 대수 서브루틴을 포함하며, 결과는 Mflop/s로 표시된다.^[17]

4. 4. 합성 벤치마크

합성 벤치마크는 실제 프로그램의 작업 통계를 바탕으로 각 작업의 비율에 따라 프로그램을 작성하는 방식이다.^[17] 웻스톤(Whetstone)과 드라이스톤 등이 대표적인 예시이다.^[17]

합성 벤치마크 프로그래밍 절차는 다음과 같다.

많은 응용 프로그램에서 모든 유형의 작업에 대한 통계를 얻는다.
각 작업의 비율을 구한다.
위의 비율에 따라 프로그램을 작성한다.

이것은 최초의 범용 산업 표준 컴퓨터 벤치마크였으나, 현대 파이프라인 컴퓨터에서 반드시 높은 점수를 얻는 것은 아니다.^[17]

4. 5. 입출력(I/O) 벤치마크

입출력(I/O) 벤치마크는 저장 장치(HDD, SSD 등)의 성능을 측정하는 데 사용된다.^[17] 파일 시스템 벤치마크, 디스크 벤치마킹 소프트웨어 등이 활용된다.

4. 6. 데이터베이스 벤치마크

데이터베이스 관리 시스템(DBMS)의 처리량과 응답 시간을 측정한다.^[17] 트랜잭션 처리 성능 위원회(TPC) 벤치마크가 대표적이다.

4. 7. 병렬 벤치마크

병렬 벤치마크는 다중 코어 및 프로세서가 있는 시스템 또는 다중 시스템으로 구성된 시스템의 성능을 측정하는 데 사용된다.^[17] NAS 병렬 벤치마크 등이 활용된다.

5. 일반적인 벤치마크 도구

벤치마킹 소프트웨어는 성능 결과를 스프레드시트 파일로 기록/내보내거나, 선 그래프를 그리거나, 색상으로 구분된 타일과 같은 시각화를 제공하며, 다시 시작하지 않고도 재개할 수 있도록 프로세스를 일시 중지하는 기능을 포함할 수 있다. 소프트웨어는 목적에 따라 추가 기능을 가질 수 있다. 예를 들어, 디스크 벤치마킹 소프트웨어는 디스크의 지정된 범위 내에서 속도 측정을 시작하고, 무작위 액세스 읽기 속도 및 레이턴시를 측정하고, 지정된 간격과 크기의 샘플을 통해 속도를 측정하고 데이터 블록 크기를 지정할 수 있는 "빠른 스캔" 기능을 제공할 수 있다.^[15]

일반적으로 CPU, 램 등 하드웨어 주요 부품에 대한 벤치마크에 사용되는 프로그램으로는 pov-ray 등이 있다. 잘 알려진 하드웨어 벤치마크 사이트로는 탐스 하드웨어(Tom's Hardware)가 있다.^[18]

AnTuTu – 휴대폰 및 ARM 기반 장치에서 일반적으로 사용된다.
바이트 시브 - 원래 언어 성능을 테스트했지만, 기계 벤치마크로도 널리 사용된다.
크리에이티브 컴퓨팅 벤치마크 – 다양한 플랫폼에서 BASIC 프로그래밍 언어를 비교한다. 1983년에 소개되었다.
긱벤치 – Windows, Linux, macOS, iOS 및 Android용 크로스 플랫폼 벤치마크이다.
iCOMP – 인텔에서 발표한 인텔 비교 마이크로프로세서 성능 지표이다.
코너스톤
성능 등급 – AMD 및 Cyrix에서 사용하던 모델링 방식으로, 일반적으로 경쟁 제품과 비교하여 상대적인 성능을 나타낸다.
러그/펠드만 벤치마크 - 1977년에 나온 초기 마이크로컴퓨터 벤치마크 중 하나이다.
선스파이더 자바스크립트 벤치마크 – 브라우저 속도 테스트
VMmark – 가상화 벤치마크 스위트이다.
드라이스톤 - 정수 연산 성능
웻스톤 - 부동 소수점 연산 성능
SPEC - 종합 성능, 멀티프로세서 성능
TPC-C - 트랜잭션 성능
LINPACK - 부동 소수점 연산 성능
HDBENCH - CPU, RAM, HDD, 그래픽
3DMark - 3D 종합 성능
PCMark - CPU, 그래픽, RAM, HDD 종합 성능
Windows 환경 지수
PassMark - CPU, 그래픽, RAM, HDD 종합 성능. Adobe가 GPU의 요구사항을 참조하는 곳으로 사용한다.^[9]
CrystalDiskMark - HDD
CINEBENCH - CPU (R15 이전에는 GPU도 측정 가능)
Blender Benchmark - CPU, GPU (범용 연산 및 레이 트레이싱 가속기)
V-Ray Benchmark - CPU, GPU (범용 연산 및 레이 트레이싱 가속기)
슈퍼 파이 - 가네다 야스마사 교수가 개발한 원주율 계산 프로그램. 이것을 사용하여 CPU의 속도를 측정하는 것을 속칭 "파이 굽기"라고 부른다.
안투투 벤치마크(AnTuTu Benchmark) - CPU, RAM, 그래픽

5. 1. 산업 표준 벤치마크

산업 표준 벤치마크는 BAPCo(Business Applications Performance Corporation), EEMBC(Embedded Microprocessor Benchmark Consortium), 표준 성능 평가 공사(SPEC), 거래 처리 성능 위원회(TPC) 등이 대표적이다.^[8] 이들은 신뢰성과 공정성이 높아 업계에서 널리 사용된다.

잘 알려진 하드웨어 벤치마크 사이트로는 탐스 하드웨어(Tom's Hardware)가 있다.^[18]

대표적인 벤치마크 프로그램으로는 다음이 있다.

드라이스톤 - 정수 연산 성능
웻스톤 - 부동 소수점 연산 성능
SPEC - 종합 성능, 멀티프로세서 성능. 특히 SPECint 및 SPECfp가 있다.
TPC-C - 트랜잭션 성능
LINPACK - 부동 소수점 연산 성능

5. 2. 오픈 소스 벤치마크

AIM 멀티유저 벤치마크는 UNIX 계열 운영체제에서 특정 컴퓨터 기능을 시뮬레이션할 수 있는 '로드 믹스'를 생성하기 위해 혼합될 수 있는 테스트 목록으로 구성된다.^[18] 보니++는 파일 시스템 및 하드 드라이브 벤치마크이다.^[18] BRL-CAD는 다중 스레드 레이 트레이싱 성능을 기반으로 하는, 크로스 플랫폼, 아키텍처에 독립적인 벤치마크 모음으로, 1984년부터 상대적인 CPU 성능, 컴파일러 차이, 최적화 수준, 일관성, 아키텍처 차이 및 운영 체제 차이를 평가하는 데 사용되었다.^[18] Collective Knowledge는 자원 봉사자가 제공하는 하드웨어 전반에 걸쳐 딥 러닝과 같은 사용자 워크로드의 벤치마킹 및 최적화를 크라우드소싱하기 위한 사용자 정의 가능한 크로스 플랫폼 프레임워크이다.^[18] 코어마크는 임베디드 컴퓨팅 벤치마크이다.^[18] DEISA 벤치마크 모음은 과학적 HPC 애플리케이션 벤치마크이다.^[18] Dhrystone은 정수 연산 성능, DMIPS(Dhrystone 초당 백만 개의 명령어)로 보고되는 경우가 많다.^[18] DiskSpd는 컴퓨터 파일, 디스크 파티션 또는 컴퓨터 데이터 스토리지 장치에 대해 다양한 요청을 생성하여 저장 장치를 벤치마킹하는 명령줄 도구이다.^[18] Fhourstones는 정수 벤치마크이다.^[18] HINT는 전반적인 CPU 및 메모리 성능을 측정하도록 설계되었다.^[18] Iometer는 단일 및 클러스터 시스템을 위한 I/O 하위 시스템 측정 및 특성화 도구이다.^[18] IOzone은 파일 시스템 벤치마크이다.^[18] LINPACK 벤치마크는 전통적으로 FLOPS를 측정하는 데 사용된다.^[18] 리버모어 루프도 오픈 소스 벤치마크의 일종이다.^[18] NAS 병렬 벤치마크,^[18] NBench는 정수 연산, 메모리 연산 및 부동 소수점 연산의 성능을 측정하는 종합 벤치마크 모음,^[18] PAL은 실시간 물리 엔진 벤치마크,^[18] PerfKitBenchmarker는 클라우드 제품을 측정하고 비교하기 위한 벤치마크 세트,^[18] Phoronix 테스트 스위트는 리눅스, OpenSolaris, FreeBSD, OSX 및 Windows를 위한 오픈 소스 크로스 플랫폼 벤치마킹 모음,^[18] POV-Ray는 3D 렌더러,^[18] Tak (함수)는 재귀 성능을 테스트하는 데 사용되는 간단한 벤치마크,^[18] TATP 벤치마크는 통신 응용 프로그램 트랜잭션 처리 벤치마크,^[18] TPoX는 XML 데이터베이스를 위한 XML 트랜잭션 처리 벤치마크,^[18] VUP (VAX 성능 단위)는 VAX MIPS라고도 한다.^[18] Whetstone은 부동 소수점 연산 성능, 종종 초당 백만 개의 Whetstone 명령어(MWIPS)로 보고된다.^[18]

5. 3. 운영체제별 벤치마크

Microsoft Windows 벤치마크

BAPCo의 MobileMark, SYSmark, WebMark, CrystalDiskMark, UL(Underwriters Laboratories)의 3DMark, PCMark, Heaven 벤치마크, PiFast, Superposition 벤치마크, Super PI, SuperPrime, Valley 벤치마크, Whetstone, Windows 시스템 평가 도구(Windows Vista 이상 버전에 포함, 시스템 평가 지수 제공), Worldbench(단종), HDBENCH (CPU, RAM, HDD, 그래픽), 3DMark (3D 종합 성능), PCMark (CPU, 그래픽, RAM, HDD 종합 성능), Windows 환경 지수, PassMark (CPU, 그래픽, RAM, HDD 종합 성능, Adobe GPU 요구사항 참조^[9]), CrystalDiskMark (HDD), 슈퍼 파이(가네다 야스마사 교수 개발, 원주율 계산, CPU 속도 측정("파이 굽기")) 등이 있다.

macOS 벤치마크

긱벤치는 Windows, Linux, macOS, iOS 및 Android용 크로스 플랫폼 벤치마크이다. CPU, 램 등에 대한 벤치마크에 사용되는 테스트 프로그램으로는 pov-ray 등이 있다. 잘 알려진 하드웨어 벤치마크 사이트로는 탐스 하드웨어가 있다.^[18]

Linux 벤치마크

Phoronix Test Suite, 긱벤치, Unigine Heaven, Unigine Valley 등이 있다.

Android 벤치마크

AnTuTu는 휴대폰 및 ARM 기반 장치에서 일반적으로 사용된다. 긱벤치는 Windows, Linux, macOS, iOS 및 Android용 크로스 플랫폼 벤치마크이다. 안투투 벤치마크(AnTuTu Benchmark)는 CPU, RAM, 그래픽 성능을 측정한다.

iOS 벤치마크

긱벤치는 Windows, Linux, macOS, iOS 및 Android용 크로스 플랫폼 벤치마크이다.^[18] AnTuTu는 휴대폰 및 ARM 기반 장치에서 일반적으로 사용되며, 안투투 벤치마크는 CPU, RAM, 그래픽 성능을 측정한다.^[18] 3DMark도 iOS 버전을 제공한다.

5. 3. 1. Microsoft Windows 벤치마크

BAPCo: MobileMark, SYSmark, WebMark
CrystalDiskMark
UL(Underwriters Laboratories): 3DMark, PCMark
Heaven 벤치마크
PiFast
Superposition 벤치마크
Super PI
SuperPrime
Valley 벤치마크
Whetstone
Windows 시스템 평가 도구는 Windows Vista 이상 버전에 포함되어 있으며, 소비자가 시스템을 쉽게 평가할 수 있는 지수를 제공한다.
Worldbench (단종)
HDBENCH - CPU, RAM, HDD, 그래픽
3DMark - 3D 종합 성능
PCMark - CPU, 그래픽, RAM, HDD 종합 성능
Windows 환경 지수
PassMark - CPU, 그래픽, RAM, HDD 종합 성능. Adobe가 GPU의 요구사항을 참조하는 곳으로 사용한다.^[9]
CrystalDiskMark - HDD
슈퍼 파이 - 가네다 야스마사 교수가 개발한 원주율 계산 프로그램. 이것을 사용하여 CPU의 속도를 측정하는 것을 속칭 "파이 굽기"라고 부른다.

5. 3. 2. macOS 벤치마크

긱벤치는 Windows, Linux, macOS, iOS 및 Android용 크로스 플랫폼 벤치마크이다. 한편, 일반적으로 하드웨어의 주요 부품인 CPU, 램 등에 대한 벤치마크에 사용되는 테스트 프로그램으로는 pov-ray 등이 있다. 잘 알려진 하드웨어 벤치마크 사이트로는 탐스 하드웨어가 있다.^[18]

5. 3. 3. Linux 벤치마크

Phoronix Test Suite, 긱벤치, Unigine Heaven, Unigine Valley 등이 있다.

5. 3. 4. Android 벤치마크

AnTuTu – 휴대폰 및 ARM 기반 장치에서 일반적으로 사용된다.
긱벤치 – Windows, Linux, macOS, iOS 및 Android용 크로스 플랫폼 벤치마크이다.
안투투 벤치마크(AnTuTu Benchmark) - CPU, RAM, 그래픽

5. 3. 5. iOS 벤치마크

긱벤치는 Windows, Linux, macOS, iOS 및 Android용 크로스 플랫폼 벤치마크이다.^[18] AnTuTu는 휴대폰 및 ARM 기반 장치에서 일반적으로 사용되며, 안투투 벤치마크는 CPU, RAM, 그래픽 성능을 측정한다.^[18] 3DMark도 iOS 버전을 제공한다.

6. 벤치마킹 시 문제점 및 과제

벤치마킹은 쉽지 않으며, 예측 가능하고 유용한 결론을 얻기 위해서는 여러 번의 반복적인 과정을 거쳐야 한다. 벤치마킹 데이터의 해석 또한 매우 어렵다. 다음은 벤치마킹 시 발생할 수 있는 일반적인 문제점들이다.

공급업체의 벤치마크 조정: 공급업체는 업계 표준 벤치마크에 맞춰 제품을 조정하는 경향이 있다.^[4] Norton SysInfo(SI)와 같이 특정 작업 속도에 편향된 벤치마크는 조정하기가 특히 쉽다. 이러한 결과를 해석할 때는 극도의 주의가 필요하다.
벤치마크 "속임수": 일부 공급업체는 벤치마크 점수를 높이기 위해 실제 작업 부하에서는 성능을 악화시키는 "속임수"를 사용한다는 비난을 받는다.^[4]
서비스 품질 및 총 소유 비용 미고려: 많은 벤치마크는 컴퓨터 성능의 속도에만 초점을 맞추고, 보안, 가용성, 안정성, 실행 무결성, 서비스 가능성, 확장성 등의 서비스 품질은 무시한다. 또한, 총 소유 비용을 측정하지 않는 경우가 많다. 트랜잭션 처리 성능 위원회 벤치마크 사양은 이러한 문제를 부분적으로 해결하기 위해 ACID 속성 테스트, 데이터베이스 확장성 규칙, 서비스 수준 요구 사항 및 단순화된 총 소유 비용 공식을 포함한다. 그러나 비용은 부분적일 수 있으며, 공급업체는 벤치마크에 맞춰 가격을 책정하여 인위적으로 낮은 가격의 "벤치마크 특별" 구성을 설계하기도 한다.
시설 부담 미고려: 벤치마크는 공간, 전력, 냉각 등의 시설 부담을 고려하지 않는 경우가 많다. 더 많은 전력을 사용하면 휴대용 시스템의 배터리 수명이 짧아지고, 서버의 경우 냉각 제한을 포함한 데이터 센터 리소스 제약에 영향을 미칠 수 있다. 와트당 성능도 중요한 고려 사항이다.
개발 및 재해 복구 용량 미고려: 공급업체는 초기 구매 가격을 낮추기 위해 생산 능력에 필요한 것만 보고하는 경향이 있어, 개발, 테스트 및 IT 재해 복구 컴퓨팅 용량에 대한 요구 사항을 무시하는 경우가 많다.
네트워크 토폴로지 민감성: 벤치마크는 네트워크 토폴로지에 대한 민감성을 가진 광범위하게 분산된 서버에 적응하는 데 어려움을 겪는다. 그리드 컴퓨팅의 등장은 일부 작업 부하가 "그리드 친화적"인 반면 다른 작업 부하는 그렇지 않기 때문에 벤치마킹을 더욱 복잡하게 만든다.
사용자 인식과의 차이: 사용자는 벤치마크가 제안하는 것과 다른 성능 인식을 가질 수 있다. 사용자는 예측 가능성, 즉 항상 서비스 수준 협약을 충족하거나 초과하는 서버를 선호하는 반면, 벤치마크는 평균 점수를 강조하는 경향이 있다.
높은 사용률에서의 성능 저하: 많은 서버 아키텍처는 사용률이 높을 때(약 100%) 성능이 급격히 저하되는 현상이 발생하지만, 벤치마크는 이를 고려하지 않는 경우가 많다. 공급업체는 비현실적인 상황인 약 80% 사용률에서 벤치마크를 게시하고, 그 이상의 수요 급증 시 발생하는 상황을 문서화하지 않는 경향이 있다.
단일 애플리케이션 중심 벤치마킹: 많은 벤치마크는 하나의 애플리케이션 또는 애플리케이션 계층에만 초점을 맞춘다. 그러나 대부분의 데이터 센터는 하드웨어 가상화를 광범위하게 구현하여 여러 애플리케이션과 애플리케이션 계층이 통합된 서버에서 동시에 실행되므로, 벤치마킹이 이러한 현실을 따라가지 못하는 경우가 있다.
일괄 컴퓨팅 성능 측정의 어려움: 일괄 컴퓨팅, 특히 대용량 동시 일괄 및 온라인 컴퓨팅의 성능을 측정하는 고품질 벤치마크는 거의 없다. 일괄 컴퓨팅은 마감 기한 전에 장기간 실행되는 작업을 완료하는 예측 가능성에 더 중점을 둔다.
과학적 방법 미준수: 벤치마킹 기관은 작은 표본 크기, 변수 제어 부족, 결과의 제한된 재현성 등 기본적인 과학적 방법을 무시하거나 따르지 않는 경우가 있다.^[5]

컴퓨터 기업들은 실 성능과 동떨어진 비현실적인 벤치마크 성능을 제시해 왔다. 1980년대에는 CPU 아키텍처가 16비트에서 32비트로 전환되는 시기였고, 기업들은 자사에 유리한 자체 벤치마크를 발표했다. 아키텍처나 OS가 다른 환경에서의 비교는 단순하지 않았고, 애플리케이션 벤더나 사용자도 참여한 시행착오가 계속되었다. 1990년대 중반 RISC와 VLIW 아키텍처가 등장하면서 컴파일러 기술이 성능에 큰 영향을 미친다는 것이 명확해졌다. 현재는 벤치마크가 컴파일러 개발에 많이 사용되며, 일반 애플리케이션의 성능 향상에도 기여하고 있다.

제조업체는 여전히 자사 제품이 강점을 보이는 분야의 벤치마크 결과만을 공표하며, 이러한 수법을 "벤치마케팅"이라고 부르기도 한다. 이상적인 벤치마크는 실제 애플리케이션을 대체할 수 있어야 하며, 성능이 중요한 경우에는 타겟 환경에서의 애플리케이션 스위트가 유일한 벤치마크가 될 수 있다.

7. 벤치마킹과 한국 IT 환경

8. 벤치마킹 관련 기타 사항

건축물, 구조물 등의 위치나 높이 등의 수준점 또는 기준점에 사용된다.^:1 통상 움직이지 않는 위치를 벤치마크 포인트로 정하고, 이를 기준으로 건물, 구조물의 위치를 결정한다.^:1 벤치마크에는 금속 징 등이 박히는 경우도 있다.^:1 또한 설계 도서에는 어디가 벤치마크 포인트인지 반드시 명시된다.^:1 원래 벤치마크(benchmark)라고 하는 경우는 측량 등에서 사용되는 기준물을 가리킨다.^:1

자동차 산업에서 벤치마크는 지표보다는 목표로 삼아야 할 대상이라는 의미로 사용되는 경우가 대부분이다.^:10 완성도가 높은 자동차가 벤치마크로 간주되며, 이를 뛰어넘는 자동차가 발표되면 그 차가 새로운 벤치마크가 된다. C 세그먼트에서는 폭스바겐 골프가, 스포츠카에서는 포르쉐 911이, 핸들링에서는 BMW 각 차종이, 경차에서는 스즈키 왜건R이 벤치마크로 여겨지는 경우가 많다.

자동차 업계에서 벤치마크는 자동차 평론가의 평가 등에 의해 결정되는 모호한 경향이 있다.^:10 타사 자동차 제품을 분해·분석하여 그 구조와 비용 구성을 밝히는 리버스 엔지니어링은 세계적으로 행해지고 있다. 이 벤치마킹을 통해 얻을 수 있는 정보는 영업 비밀에 해당하지 않으므로, 경쟁 회사가 이를 이용하는 것은 기본적으로 불법 행위가 아니다.^:10

자동차에서의 본래 의미의 (기술적인) 벤치마크에는 조종 안정성, 소음·진동·하쉬네스, 드라이버빌리티, 마력·토크, 연료 소비율, 항력, 10·15 모드 연비, JC08 모드, WLTP, NCAP, 0 - 400 m 가속, 0 - 1000 m 가속, 0 - 100 km/h 가속, 서킷의 코스 레코드, 최고 속도 기록 등이 있다. 각종 성능 시험·측정에는 테스트 드라이버가 테스트 코스 등에서 실시하는 각종 주행 실험/시험 외에도 풍동 및 섀시 다이나모가 사용된다.

8. 1. 측량 분야에서의 벤치마크

건축물, 구조물 등의 위치나 높이 등의 수준점 또는 기준점에 사용된다. 통상 움직이지 않는 위치를 벤치마크 포인트로 정하고, 이를 기준으로 건물, 구조물의 위치를 결정한다. 벤치마크에는 금속 징 등이 박히는 경우도 있다. 또한 설계 도서에는 어디가 벤치마크 포인트인지 반드시 명시된다. 원래 벤치마크(benchmark)라고 하는 경우는 측량 등에서 사용되는 기준물을 가리킨다.

8. 2. 자동차 산업에서의 벤치마크

자동차 산업에서 벤치마크는 지표보다는 목표로 삼아야 할 대상이라는 의미로 사용되는 경우가 대부분이다.^[10] 완성도가 높은 자동차가 벤치마크로 간주되며, 이를 뛰어넘는 자동차가 발표되면 그 차가 새로운 벤치마크가 된다. C 세그먼트에서는 폭스바겐 골프가, 스포츠카에서는 포르쉐 911이, 핸들링에서는 BMW 각 차종이, 경차에서는 스즈키 왜건R이 벤치마크로 여겨지는 경우가 많다.

자동차 업계에서 벤치마크는 자동차 평론가의 평가 등에 의해 결정되는 모호한 경향이 있다.^[10] 타사 자동차 제품을 분해·분석하여 그 구조와 비용 구성을 밝히는 리버스 엔지니어링은 세계적으로 행해지고 있다. 이 벤치마킹을 통해 얻을 수 있는 정보는 영업 비밀에 해당하지 않으므로, 경쟁 회사가 이를 이용하는 것은 기본적으로 불법 행위가 아니다.^[10]

자동차에서의 본래 의미의 (기술적인) 벤치마크에는 조종 안정성, 소음·진동·하쉬네스, 드라이버빌리티, 마력·토크, 연료 소비율, 항력, 10·15 모드 연비, JC08 모드, WLTP, NCAP, 0 - 400 m 가속, 0 - 1000 m 가속, 0 - 100 km/h 가속, 서킷의 코스 레코드, 최고 속도 기록 등이 있다. 각종 성능 시험·측정에는 테스트 드라이버가 테스트 코스 등에서 실시하는 각종 주행 실험/시험 외에도 풍동 및 섀시 다이나모가 사용된다.

참조

_[1] 논문 How not to lie with statistics: the correct way to summarize benchmark results 1986-03-01
_[2] 간행물 2019 IEEE International Conference on Cloud Engineering (IC2E) 2023-12-03
_[3] 문서 Software: HDDScan, GNOME Disks
_[4] 뉴스 NVidia's Benchmark Tactics Reassessed http://www.pcworld.c[...] IDG News 2009-08-08
_[5] 웹사이트 Hardware Testing and Benchmarking Methodology http://donutey.com/h[...] 2008-02-24
_[6] 간행물 Benchmarking Contemporary Deep Learning Hardware and Frameworks: a Survey of Qualitative Metrics https://dberleant.gi[...] IEEE 2019-12-12
_[7] 논문 Benchmarking network processors http://www.da.isy.li[...]
_[8] 웹사이트 History and Overview of the TPC http://www.tpc.org/i[...] Transaction Processing Performance Council 1998-02
_[9] 웹사이트 Photoshop グラフィックプロセッサー（GPU）カードに関するよくある質問 https://helpx.adobe.[...] 2020-12-11
_[10] 문서 当社のライバル会社が、当社の製品を購入して分解してその仕組みを調べ上げ（リバースエンジニアリング）、同等の性能をもつ製品を開発してしまいました。このようなライバル会社の行為は違法でしょうか。また、秘密保護のための対策はありますか。 https://www.clairlaw[...] クレア法律事務所
_[11] 웹사이트 三菱自「燃費不正」問題の測定方法『惰行法』と『高速惰行法』の違いとは https://autoc-one.jp[...] MOTA 2016-04-28
_[12] 웹사이트 スズキの報告から見えてくる燃費試験「惰行法」の課題とは？ https://clicccar.com[...] clicccar 2016-05-22
_[13] 논문 How not to lie with statistics: the correct way to summarize benchmark results 1986-03-01
_[14] 간행물 2019 IEEE International Conference on Cloud Engineering (IC2E) 2023-12-03
_[15] 문서 Software: HDDScan, GNOME Disks
_[16] 간행물 Benchmarking Contemporary Deep Learning Hardware and Frameworks: a Survey of Qualitative Metrics https://dberleant.gi[...] IEEE 2019-12-12
_[17] 논문 Benchmarking network processors http://www.da.isy.li[...]
_[18] 문서 AMD Ryzen 9 5900X vs Intel Core i9-11900K: Rocket Lake and Ryzen 5000 CPU Face Off https://www.tomshard[...] tomshardware 2021-04-20

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com