맨위로가기

다중화 (시스템)

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

다중화는 시스템의 안정성과 신뢰성을 높이기 위해 동일한 기능을 수행하는 요소들을 중복하여 구성하는 기술이다. 컴퓨터 과학에서는 하드웨어, 정보, 시간, 소프트웨어의 중복성을 활용하며, 하드웨어 중복성은 이중 모듈 또는 삼중 모듈 중복성으로, 정보 중복성은 오류 감지 및 수정 코드로 구현된다. 시간 중복성은 동일한 작업을 여러 번 수행하는 방식으로, 소프트웨어 중복성은 N-버전 프로그래밍과 같은 방식으로 구현된다. 다중화는 수동 다중화와 능동 다중화로 나뉘며, 수동 다중화는 초과 용량을 사용하여, 능동 다중화는 개별 장치의 성능을 모니터링하여 성능 저하를 제거한다. 다중화는 전력 분배, 데이터 처리, 정보 저장, 전송로, 수송 기계, 전력 시스템, 건축 등 다양한 분야에서 활용되며, 지리적 중복성, 이종 중복화 등을 통해 시스템의 가용성을 높인다. 하지만 과도한 중복성은 시스템의 복잡성을 증가시켜 오히려 신뢰성을 저하시킬 수 있으며, 시스템 고장 확률은 각 구성 요소의 고장 확률을 곱하여 계산한다.

더 읽어볼만한 페이지

  • 장애 허용 - 진폭 편이 방식
    진폭 편이 방식(ASK)은 반송파의 진폭을 변화시켜 데이터를 표현하는 변조 방식이며, 온오프 변조와 다치 ASK가 있으며, 오류 확률은 다양한 요인에 의해 영향을 받는다.
  • 장애 허용 - 플라이 바이 와이어
    플라이 바이 와이어는 조종사의 조작을 전기 신호로 변환하여 항공기 제어면을 작동시키는 시스템으로, 무게 감소, 설계 자유도 증가, 자동 조종 장치 통합 용이성 등의 장점을 가지며 항공기 구조 안전성 및 운동 능력 향상에 기여한다.
  • 설계 - 유니버설 디자인
    유니버설 디자인은 모든 사람이 제품, 환경, 서비스를 편리하게 이용하도록 설계하는 개념이며, 7가지 원칙을 통해 공평한 사용을 추구하며 다양한 분야에 적용된다.
  • 설계 - 프로토타입
    프로토타입은 새로운 기술이나 기구의 검증, 기능 검증을 위해 제작되며, 대량 생산 전에 문제점을 파악하기 위해 사용되며, 다양한 유형의 프로토타입이 존재하며, 비용 증가와 같은 단점이 있다.
  • 신뢰성 공학 - 고객 지원
    고객 지원은 기업이 고객의 문의, 불만, 문제 해결 요청 등에 대응하는 활동으로, 자동화와 다양한 방식을 통해 효율성을 높여 고객 만족도 및 충성도를 강화하는 데 기여한다.
  • 신뢰성 공학 - 유지보수운영
    유지보수운영은 제품, 설비, 시스템의 기능과 성능 유지를 위한 활동으로, 예방, 수정 유지보수, 보강 등을 포함하며 운송 수단, 사회 기반 시설, 디지털 시스템 등 다양한 분야에서 안전과 기능 유지를 위해 중요성이 강조되고 있다.
다중화 (시스템)
정의
설명시스템의 신뢰성을 높이기 위해 중요한 구성 요소를 이중화하는 것.
개요
목적시스템의 가용성을 높이고 오류 발생 시에도 정상적인 기능을 유지하기 위함.
적용 분야항공우주
컴퓨터 시스템
통신 네트워크
산업 자동화
일반적인 방법동일한 기능을 수행하는 여러 개의 구성 요소를 병렬로 연결하여, 하나의 구성 요소가 고장나더라도 다른 구성 요소가 대신 작동하도록 함.
유형
하드웨어 중복동일한 하드웨어 구성 요소를 여러 개 사용하여 시스템의 신뢰성을 높임.
예: RAID (Redundant Array of Independent Disks)
소프트웨어 중복동일한 기능을 수행하는 소프트웨어 모듈을 여러 개 사용하여 시스템의 신뢰성을 높임.
예: N-버전 프로그래밍
시간 중복동일한 작업을 여러 번 반복하여 오류를 검출하고 수정함.
예: 재시도 메커니즘
정보 중복오류 검출 및 수정을 위해 추가적인 정보를 사용함.
예: 해밍 코드
설계 고려 사항
오류 감지 및 격리시스템 오류를 신속하게 감지하고 격리하는 메커니즘이 필요함.
스위칭 메커니즘오류 발생 시 정상적인 구성 요소로 자동 전환하는 스위칭 메커니즘이 필요함.
유지 보수중복 시스템의 유지 보수를 위한 계획이 필요함.
장단점
장점시스템의 신뢰성 및 가용성 향상
오류 발생 시 시스템 다운타임 감소
안전성 향상 (특히 항공우주 분야)
단점시스템 복잡성 증가
비용 증가
전력 소비 증가
무게 증가 (특히 항공우주 분야)
관련 개념
폴트 톨러런스시스템이 오류에도 불구하고 정상적으로 작동할 수 있는 능력
신뢰성 공학시스템의 신뢰성을 평가하고 개선하는 데 사용되는 공학 분야
안전 공학시스템의 안전성을 평가하고 개선하는 데 사용되는 공학 분야
참고 자료
참고 문헌Analog Voting Circuit Is More Flexible Than Its Digital Version (elecdesign.com)
The Aerospace Corporation | Assuring Space Mission Success (Aero.org)
Learning from Normal Accidents (Stanford.edu)

2. 컴퓨터 과학에서의 중복성

컴퓨터 과학에서 중복성은 시스템의 안정성과 신뢰성을 향상시키는 핵심적인 방법이다.[5]

컴퓨터 과학에서 중복성은 크게 네 가지 형태로 나타난다.


  • 하드웨어 중복성: 이중 모듈 중복성, 삼중 모듈 중복성 등
  • 정보 중복성: 오류 감지 및 수정 방법 등
  • 시간 중복성: 프로그램의 여러 실행 또는 전송된 데이터의 여러 복사본과 같이 동일한 작업을 여러 번 수행
  • 소프트웨어 중복성: N-버전 프로그래밍 등


소프트웨어 중복성의 수정된 형태는 하드웨어에도 적용될 수 있다. 예를 들어, 자동차의 기계식 및 유압식 브레이크와 같이, 독립적으로 작성되어 서로 다르지만 동일한 입력에 대해 동일한 결과를 생성하는 코드를 적용하는 것이다.

구조물은 일반적으로 중복 부품으로 설계되어 하나의 부품이 고장 나도 전체 구조가 붕괴되지 않도록 한다. 중복성이 없는 구조는 파괴-임계라고 하며, 이는 하나의 파손된 구성 요소가 전체 구조의 붕괴를 일으킬 수 있음을 의미한다. 실버 다리와 스캐짓 강 위의 5번 주간 고속도로 다리는 중복성 부족으로 인해 붕괴된 대표적인 다리이다.

병렬 및 결합 시스템은 서로 다른 수준의 중복성을 보여주며, 신뢰성 및 안전 공학 연구의 대상이 된다.[6]

특히 중요한 시스템에서는, 재해나 광역 장애 등에 대비하여 복수의 시스템을 대한민국 내에서는 예를 들어 서울부산 등과 같이 떨어진 장소에 설치하기도 한다.

일반 소비자용이나 기업에서 통상적인 사무 처리에 사용되는 PC에서는 순간적인 정지를 피하기 위한 중복화를 하는 경우는 드물다. 비교적 취약하다고 여겨지는 하드 디스크 드라이브의 고장으로 인해 작성 및 저장된 파일 전부가 손실될 위험성이 있을 때에는 RAID를 이용한 중복화가 이루어지기도 한다.

2. 1. 하드웨어 중복성

이중 모듈 중복성 및 삼중 모듈 중복성과 같이 하드웨어 구성 요소를 여러 개 배치하여 하나의 구성 요소가 고장 나더라도 전체 시스템은 정상 작동하도록 한다. 컴퓨터 시스템에서는 한순간의 정지도 허용되지 않는, 금융 기관이나 교통 기관의 운행 관리 등의 시스템에서 중복화를 하는 경우가 많다.[5]

  • '''듀얼 시스템:''' 동일한 처리를 2개의 컴퓨터 시스템에서 수행하고, 그 결과를 대조기로 교차 검증하여 처리의 정확성을 확인하면서 처리를 진행하는 시스템 구성이다. 서버 본체뿐만 아니라, 전원, 케이블, 데이터베이스 등 모든 것을 이중화한다. 시스템 내부에 유사한 형태의 서브 시스템을 항상 병렬로 가동시켜, 한쪽에 장애가 발생했을 때도 정체 없이 다른 한쪽만으로 기본적인 서비스를 수행할 수 있도록 설계·운영된다.
  • '''듀플렉스 시스템:''' 주계(가동계)와 부계(대기계)로 구성된 2계열의 처리 시스템 구성으로, 부계는 핫 스탠바이와 콜드 스탠바이로 나뉜다. 핫 스탠바이는 대기계를 언제든지 동작 가능한 상태로 대기시켜두고, 장애 발생 시에 즉시 전환하는 방식이다. 콜드 스탠바이는 통상 시에는 가동계에서 온라인 처리, 대기계에서 배치 처리를 하면서 대기하지만, 주계의 장애 발생 시에는 주계에서 행하던 온라인 처리를 부계로 인계함으로써 처리를 지속한다.
  • '''클러스터 시스템:''' 고가용성 클러스터 시스템(페일오버가 가능한 듀플렉스 시스템)과 부하 분산 클러스터 시스템(복수 대가 동시에 가동하여 부하 분산하면서 병렬로 처리를 하는 시스템) 두 가지가 있다.


이러한 중복화는 서비스 지속성이 높아진다는 점에서 유용하지만, 막대한 비용이 들기 때문에, 완전한 중복화가 가능한 시스템은 비용 대비 효과 면에서 제한된다.

2. 2. 정보 중복성

기업이나 정부가 운영하는 미션 크리티컬 컴퓨터 시스템, 네트워크 서비스를 제공하는 기업의 대규모 서버 팜이나 데이터 센터의 스토리지 시스템에서는, 원래 정보로부터 특정 연산을 통해 중복 데이터를 생성해 둔다. 이를 통해 장애로 인해 원래 정보가 일부 손실되어도 오류 감지 및 수정을 할 수 있다.[5]

2. 3. 시간 중복성

동일한 작업을 여러 번 수행하거나 데이터를 여러 번 전송하여 오류 발생 가능성을 줄이는 것을 말한다.[5] 예를 들어, 중요한 데이터는 여러 번 백업하여 보관한다.

2. 4. 소프트웨어 중복성

N-버전 프로그래밍과 같이 동일한 기능을 수행하는 여러 버전의 소프트웨어를 독립적으로 개발하여, 특정 버전에서 오류가 발생하더라도 다른 버전으로 대체하여 시스템을 정상 작동시킨다.[5] 별개의 기능 중복성은 자동차의 기계식 및 유압식 브레이크처럼, 소프트웨어의 경우 독립적으로 작성되어 서로 다르지만 동일한 입력에 대해 동일한 결과를 생성하는 코드가 적용된다.

2. 5. 상이 중복성 (Dissimilar Redundancy)

상이 중복성(Dissimilar Redundancy)은 서로 다른 유형의 하드웨어나 소프트웨어 등을 조합하여 중복성을 확보하는 방식이다. 이는 동일한 유형의 구성 요소에서 발생할 수 있는 공통 오류(Common Mode Failure)를 방지하는 데 효과적이다.[7][8][9]

전통적인 중복 방식과 달리, 상이 중복 방식은 서로 다른 방식을 사용하여 동일한 결함을 가질 가능성을 낮춘다. 예를 들어, 서로 다른 시간을 소요하는 방식을 조합하여 사용할 수 있다. 상이 중복 방식은 동일한 소프트웨어가 동일한 결함을 포함하고 있을 가능성이 있기 때문에 소프트웨어와 함께 자주 사용된다.[7][8][9]

다음과 같은 항목들에 대해 최소 두 가지 이상의 서로 다른 유형을 사용함으로써 고장 가능성을 줄일 수 있다.[7][8][9]

항목설명
프로세서서로 다른 종류의 프로세서를 사용
운영 체제서로 다른 운영 체제를 사용
소프트웨어서로 다른 소프트웨어를 사용
센서서로 다른 유형의 센서를 사용
액추에이터 유형전기, 유압, 공압, 수동 기계 등 서로 다른 유형의 액추에이터를 사용
통신 프로토콜서로 다른 통신 프로토콜을 사용
통신 하드웨어서로 다른 통신 하드웨어를 사용
통신 네트워크서로 다른 통신 네트워크를 사용
통신 경로서로 다른 통신 경로를 사용



예를 들어, 전차에서는 전기 브레이크, 유압 브레이크, 공압 브레이크와 같이 서로 다른 종류의 브레이크를 조합하여 사용한다. 이종 중복화는 다양성이라고도 불리며, 동일한 원인으로 모든 예비 시스템이 동시에 정지될 가능성을 줄여, 더욱 높은 장애 복원력을 확보할 수 있게 한다.

2. 6. 지리적 중복성

지리적 중복성은 정전, 홍수, HVAC 고장, 낙뢰, 토네이도, 건물 화재, 산불, 총기 난사와 같이 특정 지역에서 발생하는 문제로 인해 시스템 전체가 마비되는 상황을 방지하기 위해, 지리적으로 백업 장치를 분리하여 배치하는 것을 의미한다.[5]

지리적 중복성을 확보하기 위한 위치 선정 기준은 다음과 같다.

기준
약 999.40km 이상 떨어진 대륙 간 분리[10]
약 99.78km 이상 약 149.67km 미만으로 떨어져 있는 경우[11]
약 99.78km 미만으로 떨어져 있지만 동일 캠퍼스에 있지 않은 경우
동일 캠퍼스 내 약 91.44m 이상 떨어진 다른 건물



화재 및 대형 화재로 인한 피해를 줄이기 위한 방법은 다음과 같다.

방법
최소 약 24.38m에서 약 33.53m 이상, 때로는 최소 약 64.01m 떨어진 대형 건물[12][13]
최소 25m 떨어진 고층 건물[14]
가연성 식물이 없는 개방 공간은 객체의 양쪽에 약 60.96m 이내[15]
동일한 건물의 다른 윙, 약 91.44m 이상 떨어진 방
건물의 동일한 윙의 다른 층, 수평으로 최소 약 21.34m 오프셋된 방, 다른 층에 있는 방 사이에 방화벽이 있음
다른 방으로 분리된 두 개의 방, 두 방 사이에 최소 70피트 간격 유지
최소 두 개의 분리된 방화벽이 있어야 하며 복도의 반대쪽에 있어야 함[10]



강한 폭풍이나 침수로 인한 피해를 최소화하려면, 건물은 해안에서 최소 약 3.22km 떨어진 해발 약 1.52m 이상 높이에 위치해야 한다. 또한, 홍수 지역에서 최소 30m 떨어진 곳에 위치하는 것이 좋다.[17][18]

아마존 웹 서비스(AWS), 구글 클라우드 플랫폼(GCP), Microsoft Azure, 넷플릭스, 드롭박스, 세일즈포스, 링크트인, 페이팔, 트위터, 페이스북, Apple iCloud, 시스코 Meraki 등 여러 회사에서 지리적 중복성, 고가용성, 내결함성을 제공하고 클라우드 서비스의 가용성과 신뢰성을 보장하기 위해 지리적 중복성을 활용하고 있다.[16]

특히 중요한 시스템의 경우, 재해나 광역 장애 등에 대비하여 복수의 시스템을 대한민국 내에서는 예를 들어 서울부산 등과 같이 떨어진 장소에 설치하기도 한다.

3. 중복성의 기능

다중화의 기능은 크게 수동적 다중화와 능동 다중화로 나눌 수 있다. 두 기능 모두 추가 용량을 사용하여 사람의 개입 없이 사양 제한을 초과하는 성능 저하를 방지한다.

수동적 다중화는 구성 요소 오류의 영향을 줄이기 위해 초과 용량을 사용하는 방식이고, 능동적 다중화는 개별 장치의 성능을 모니터링하여 성능 저하를 제거하고 투표 논리를 통해 자동으로 재구성하는 방식이다. 오류 감지 및 수정과 GPS(Global Positioning System, 전역 위치 결정 시스템)는 능동 다중화의 예시이다.[6]

투표 로직은 성능 모니터링을 사용하여 시스템 사양 제한을 위반하지 않으면서 작동을 계속하도록 개별 구성 요소를 재구성하는 방법을 결정한다. 회로 차단기는 컴퓨터가 아닌 형태의 투표 로직의 한 예이다. 컴퓨팅 시스템에서 투표 로직은 기본 및 대체 구성 요소로 구성되거나, 세 개 이상의 홀수 개의 장치로 구성되어 단일 오류가 발생해도 정상 작동을 유지할 수 있다. 이 기술은 항공 전자 공학 시스템, 예를 들어 우주왕복선 작동을 담당하는 시스템 등에 사용된다.[6]

3. 1. 수동적 중복성 (Passive Redundancy)

수동적 다중화는 구성 요소 오류의 영향을 줄이기 위해 초과 용량을 사용하는 방식이다. 예를 들어, 교량 설계에 사용되는 케이블과 버팀대는 여유 강도를 가지도록 설계된다. 이 여유 강도는 일부 구조 구성 요소가 파손되더라도 다리가 붕괴되지 않도록 한다. 설계에 사용되는 여유 강도를 안전 여유라고 한다.[5] 눈과 귀는 수동적 다중화의 작동 예시이다. 한쪽 눈의 시력을 잃더라도 실명하지 않지만, 깊이 인지 능력은 손상된다. 한쪽 귀의 청력을 잃더라도 청각 장애가 발생하지 않지만, 방향 감각은 상실된다. 이처럼 제한된 수의 오류가 발생했을 때 성능 저하가 나타나는 것이 수동적 다중화의 특징이다.[6]

구조물은 일반적으로 중복 부품으로 설계되어 한 부품이 고장 나도 전체 구조가 붕괴되지 않는다. 중복성이 없는 구조는 파괴-임계라고 불리며, 이는 하나의 파손된 구성 요소가 전체 구조의 붕괴를 유발할 수 있음을 의미한다. 중복성 부족으로 붕괴된 다리로는 실버 다리와 스캐짓 강 위의 5번 주간 고속도로 다리가 있다.[6]

2001년 9.11 테러로 붕괴된 세계 무역 센터는 철근 구조 시스템이 철저한 합리성과 최적화를 목표로 설계되어 붕괴에 대한 여유를 거의 갖추지 못했다. 이 사건을 계기로 건축 구조 모델의 방향성은 최적화에서 여유 확보로 전환되었다.[24]

3. 2. 능동적 중복성 (Active Redundancy)

전력 분배는 능동 다중화의 한 가지 예이다. 여러 전력선이 각 발전 시설을 고객과 연결한다. 각 전력선에는 과부하를 감지하는 모니터가 있으며, 차단기를 통해 과부하 감지 시 전력선을 분리한다. 전력은 나머지 회선으로 재분배된다.[6] 토론토 공항에는 4개의 중복 전력선이 있는데, 4개의 회선 각각은 전체 공항에 충분한 전력을 공급한다. 스팟 네트워크 변전소는 역전류 계전기를 사용하여 고장난 회선의 차단기를 열지만, 전력은 계속 공항으로 흐르도록 한다.

전력 시스템은 전력 스케줄링을 사용하여 능동 다중화를 재구성한다. 컴퓨팅 시스템은 다른 발전 시설이 갑자기 손실될 때 각 발전 시설의 생산 출력을 조정한다. 이는 지진과 같은 주요 사건 중에 정전 상태를 방지한다.[6]

전력 계통의 기능 정지는 전력 공급을 받고 있는 모든 수요자에게 큰 피해를 준다. 특히 도시 규모의 광역 정전(대규모 정전)에서는 피해 규모가 크다. 유럽미국 지역의 송전 회사나 일본의 전력 회사 등에서는 송전망 및 배전망의 사고를 순간적/단시간 내에 분리하여 피해 확대를 방지하면서 송전망의 사고 지점의 우회로를 설치하여 피해를 국한시키고 있다. 이 때문에 송전선은 동일 경로로 통상 2계통 이상이 병행하여 가설되어 있다.

수요자 측에서도 전력 상실에 취약한 전자 기기에는 예상치 못한 정전에 대비하여 전용 무정전 전원 장치를 갖추거나, 업무의 지속이 강하게 요구되는 부문에서는 자가 발전 장치의 도입이 이루어지고 있다. 병원이나 공항에서의 전력 상실 사고는 직접 인명과 관련되므로, 예를 들어 일본의 병원에서는 가스터빈이나 디젤 엔진식 발전기 및 축전지가 설치되어 있어 일정 시간은 확실하게 전력을 확보할 수 있도록 되어 있다.

4. 투표 로직 (Voting Logic)

투표 로직은 성능 모니터링을 사용하여 전반적인 시스템의 사양 제한을 위반하지 않으면서 작동이 계속되도록 개별 구성 요소를 재구성하는 방법을 결정한다. 투표 로직은 종종 컴퓨터를 포함하지만 컴퓨터 이외의 항목으로 구성된 시스템도 투표 로직을 사용하여 재구성할 수 있다. 회로 차단기는 컴퓨터가 아닌 형태의 투표 로직의 한 예이다.[1]

컴퓨팅 시스템에서 가장 간단한 투표 로직은 기본 및 대체, 두 가지 구성 요소로 구성된다. 둘 다 유사한 소프트웨어를 실행하지만 정상 작동 중에는 대체 구성 요소의 출력이 비활성 상태로 유지된다. 기본 구성 요소는 자체를 모니터링하고 모든 것이 정상인 한 주기적으로 활동 메시지를 대체 구성 요소로 보낸다. 기본 구성 요소가 오류를 감지하면 활동 메시지를 포함하여 기본 구성 요소의 모든 출력이 중지된다. 활동 메시지가 중지되면 짧은 지연 후에 대체 구성 요소가 출력을 활성화하고 기본 구성 요소를 대신한다. 투표 로직의 오류는 두 출력이 동시에 활성 또는 비활성 상태가 되거나 출력이 깜박이는 원인이 될 수 있다.[1]

더 신뢰할 수 있는 형태의 투표 로직은 세 개 이상의 홀수 개의 장치를 포함한다. 모두 동일한 기능을 수행하며 투표 로직에서 출력을 비교한다. 투표 로직은 불일치가 있을 때 과반수를 설정하고 과반수는 동의하지 않는 다른 장치의 출력을 비활성화하는 역할을 한다. 단일 오류는 정상 작동을 중단하지 않는다. 이 기술은 항공 전자 공학 시스템, 예를 들어 우주왕복선 작동을 담당하는 시스템에 사용된다.[1]

5. 중복성의 단점

찰스 페로는 저서 《정상적 사고》에서 중복성이 때때로 역효과를 내어 신뢰성을 오히려 낮출 수 있다고 말했다. 이는 세 가지 방식으로 발생할 수 있다.[4]


  • 첫째, 중복된 안전 장치는 더 복잡한 시스템을 초래하여 오류와 사고가 더 자주 발생하게 한다.
  • 둘째, 중복성은 작업자들 사이의 책임 회피로 이어질 수 있다.
  • 셋째, 중복성은 생산 압력을 증가시켜 시스템이 더 빠른 속도로 작동하지만 안전성은 떨어진다.[4]

6. 시스템 고장 확률 계산

각 중복 구성 요소는 시스템 고장 확률을 감소시킨다. 시스템 고장 확률은 다음 공식에 따라 개별 구성 요소 고장 확률의 곱으로 계산된다.[1]

:{p}= \prod_{i=1}^{n} p_{i}


  • n – 구성 요소 수
  • p_{i} – 구성 요소 i의 고장 확률
  • p – 모든 구성 요소가 고장날 확률 (시스템 고장)


이 공식은 각 구성 요소의 고장이 독립적이라고 가정한다. 즉, 구성 요소 A가 이미 고장난 경우 구성 요소 B가 고장날 확률은 A가 고장나지 않은 경우 B가 고장날 확률과 같다. 예를 들어, 두 개의 전원 공급 장치를 동일한 소켓에 연결하여 하나의 전원 공급 장치가 고장나면 다른 전원 공급 장치도 고장나는 경우가 있는데, 이는 독립성 가정이 성립하지 않는 경우이다.[1]

또한, 시스템을 작동시키려면 하나의 구성 요소만 필요하다고 가정한다.[1]

7. 고가용성과 중복성

높은 가용성은 중복성을 통해 달성할 수 있다. A, B, C 세 개의 중복된 구성 요소가 있다고 가정할 때, 전체 시스템의 가용성은 다음 공식으로 계산할 수 있다.[19][20]

: 중복 구성 요소의 가용성 = 1 - (1 - 구성 요소 A의 가용성) X (1 - 구성 요소 B의 가용성) X (1 - 구성 요소 C의 가용성)

결과적으로, 각각 X의 가용성을 가진 N개의 병렬 구성 요소가 있는 경우, 다음 공식이 성립한다.

: 병렬 구성 요소의 가용성 = 1 - (1 - X)^ N

10개의 호스트가 각각 50%의 가용성을 갖지만, 병렬로 사용되고 독립적으로 실패하면 높은 가용성을 제공할 수 있다.


중복 구성 요소를 사용하면 전체 시스템의 가용성이 기하급수적으로 증가할 수 있다.[20] 예를 들어, 각 호스트의 가용성이 50%에 불과하더라도 10개의 호스트를 병렬로 사용하면 99.9023%의 가용성을 얻을 수 있다.

하지만, 중복성이 항상 더 높은 가용성을 제공하는 것은 아니다. 실제로 중복성은 복잡성을 증가시키고, 이는 가용성을 감소시킨다. Marc Brooker에 따르면, 중복성을 활용하려면 다음을 확인해야 한다.[21]

# 전체 시스템의 전반적인 가용성이 순증가한다.

# 중복 구성 요소가 독립적으로 실패한다.

# 시스템은 정상적인 중복 구성 요소를 안정적으로 감지할 수 있다.

# 시스템은 중복 구성 요소를 안정적으로 확장 및 축소할 수 있다.

8. 다양한 분야에서의 중복성

상이 중복 방식은 전통적인 중복 방식과 달리, 서로 다른 방식을 사용하여 시스템의 안정성을 높이는 방법이다. 이는 서로 다른 방식들이 동일한 결함을 가질 가능성이 낮다는 점을 이용한 것이다. 예를 들어, 서로 다른 종류의 프로세서, 운영 체제, 소프트웨어, 센서 등을 함께 사용하여 하나의 시스템에서 문제가 발생하더라도 다른 시스템으로 대체하여 작동을 계속할 수 있다.

특히 소프트웨어는 동일한 결함을 가질 가능성이 높기 때문에, 상이 중복 방식이 자주 사용된다. 하지만, 서로 다른 방식이 처리 시간을 다르게 소요할 경우, 시스템의 복잡성이 증가할 수 있다는 단점도 있다.
지리적 중복성은 백업 장치를 지리적으로 분리하여 배치함으로써 정전, 홍수, 화재 등과 같은 광범위한 재해로부터 시스템을 보호하는 방법이다. 예를 들어, 데이터 센터를 서로 다른 대륙이나 지역에 분산시켜 한 지역에서 재해가 발생하더라도 다른 지역의 데이터 센터를 통해 서비스를 계속 제공할 수 있다.

지리적 중복성을 위한 위치 선정은 다음과 같은 기준을 고려할 수 있다.


  • 약 999.40km 이상 떨어진 대륙 분리[10]
  • 약 99.78km 이상 약 149.67km 미만 떨어져 있는 위치[11]
  • 약 99.78km 미만 떨어져 있지만 동일한 캠퍼스에 있지 않은 위치
  • 동일한 캠퍼스 내 약 91.44m 이상 떨어진 다른 건물


화재로 인한 피해를 줄이기 위해서는 다음과 같은 방법을 사용할 수 있다.

  • 최소 약 24.38m에서 약 33.53m 이상, 때로는 최소 약 64.01m 떨어진 대형 건물[12][13]
  • 최소 25m 떨어진 고층 건물[14]
  • 가연성 식물이 없는 개방 공간은 객체의 양쪽에 약 60.96m 이내[15]
  • 동일한 건물의 다른 윙, 약 91.44m 이상 떨어진 방
  • 건물의 동일한 윙의 다른 층, 수평으로 최소 약 21.34m 오프셋된 방, 다른 층에 있는 방 사이에 방화벽이 있음
  • 다른 방으로 분리된 두 개의 방, 두 방 사이에 최소 70피트 간격 유지
  • 최소 두 개의 분리된 방화벽이 있어야 하며 복도의 반대쪽에 있어야 함[10]


이러한 지리적 중복성은 아마존 웹 서비스(AWS), 구글 클라우드 플랫폼(GCP), 마이크로소프트 애저 등 주요 클라우드 서비스 제공업체에서 널리 사용되고 있다.[16]

또한, 강한 폭풍이나 물 손상으로 인한 위험을 최소화하기 위해 건물은 해안에서 최소 약 3.22km 떨어진 해발 약 1.52m 이상 높이에 위치하고, 홍수 지역에서 최소 약 30.48m 떨어진 곳에 위치할 수 있다.[17][18]

8. 1. 데이터 처리 (일본어 위키에서 발췌)

듀얼 시스템은 동일한 처리를 두 개의 컴퓨터 시스템에서 수행하고, 그 결과를 대조기로 교차 검증하여 처리의 정확성을 확인하면서 처리를 진행하는 시스템 구성이다. 서버 본체뿐만 아니라, 전원, 케이블, 데이터베이스 등 모든 것을 이중화한다. 컴퓨터 시스템에서는 한순간의 정지도 허용되지 않는, 예를 들어 금융 기관이나 교통 기관의 운행 관리 등의 시스템에서 중복화를 하는 경우가 많다. 시스템 내부에 유사한 형태의 서브 시스템을 항상 병렬로 가동시켜, 한쪽에 장애가 발생했을 때도 정체 없이 다른 한쪽만으로 기본적인 서비스를 수행할 수 있도록 설계·운영된다. 장애 발생 시에는 문제 있는 쪽의 시스템을 메인 처리에서 분리하고, 남겨진 쪽의 시스템만으로 처리를 속행하면서, 장애로부터의 회복을 도모한다. 고장 시의 전환뿐만 아니라 처리 결과의 비교에 의해 이상 검출이나 다수결이 가능한 것도 특징이다.[1]

듀플렉스 시스템은 주계(가동계라고도 함)와 부계(대기계라고도 함)로 구성된 2계열의 처리 시스템 구성으로, 부계는 핫 스탠바이와 콜드 스탠바이로 나뉜다. 핫 스탠바이는 대기계를 언제든지 동작 가능한 상태로 대기시켜두고, 장애 발생 시에 즉시 전환하는 방식이다. 콜드 스탠바이는 통상 시에는 가동계에서 온라인 처리, 대기계에서 배치 처리를 하면서 대기하지만, 주계의 장애 발생 시에는 주계에서 행하던 온라인 처리를 부계로 인계함으로써 처리를 지속한다. 즉, 각각의 서브 시스템에서 서로 다른 처리를 수행하는 구성이다. 콜드 스탠바이는 장애 발생 시까지 전원을 정지하고 있는 경우도 있다.[1]

클러스터 시스템은 "고가용성 클러스터 시스템"과 "부하 분산 클러스터 시스템" 두 가지 용어가 있다. "고가용성 클러스터 시스템"은 페일오버가 가능한 듀플렉스 시스템을 가리킨다. "부하 분산 클러스터 시스템"은 복수 대가 동시에 가동하여 부하 분산하면서 병렬로 처리를 하는 시스템을 가리킨다. "클러스터 시스템"이라는 용어를 사용할 때는 어느 쪽을 가리키는지 명확하게 하기 위해, "클러스터 시스템"이라는 용어 앞에 "고가용성" 또는 "부하 분산"을 붙여 명확화할 필요가 있다. 부하 분산 클러스터 시스템은 결과적으로 전체를 1대의 고성능 컴퓨터인 것처럼 이용한다. 연계되어 있는 컴퓨터 중 어느 하나에 장애가 발생한 경우에는 다른 컴퓨터에 처리를 대신하게 함으로써, 시스템 전체로서 처리를 정지시키지 않도록 하고 있다.[1]

8. 2. 정보 저장 (일본어 위키에서 발췌)

기업이나 정부가 운용하는 미션 크리티컬 컴퓨터 시스템, 네트워크상에서 서비스를 제공하는 기업의 대규모 서버 팜이나 데이터 센터의 스토리지 시스템에서는, 원래 정보로부터 특정 연산에 의해 중복된 데이터를 생성해두고, 장애로 인해 원래 정보가 약간 손실되어도 오류 검출 및 수정을 가능하게 하는 장치가 활용되고 있다.

8. 3. 전송로 (일본어 위키에서 발췌)

21세기 현재 일반적인 데이터 전송에서는 전송로가 가진 물리적인 제약의 상한 가까이까지 사용하는 고속 대용량 전송이 요구되므로, 경제적인 측면에서도 오류 검출 및 정정은 필수적인 기술이 되었다. 전송로 자체의 중복성은 트렁킹으로 확보하거나, 네트워크 단절에 대해서도 각종 라우팅 프로토콜과 QoS 기술로 확보한다.[1]

8. 4. 수송 기계 (일본어 위키에서 발췌)

여객기엔진을 여러 개 탑재하고 있으며, 엔진 1대가 고장나도 다른 엔진만으로 안전하게 착륙할 때까지 비행을 지속할 수 있도록 국제적인 협약으로 규정되어 있다.[22] 방향타나 승강타 등의 조타 날개 조작계는 유압 계통을 분할 다중화하고 있으며, 무선기나 항법 장치, 비행 계기류도 현대적인 장치를 다중화한 위에 구식 비행 계기도 남아 있다. 전력 계통이나 공기압 계통, 연료 계통도 다중화되어 있다. 2명 이상 탑승하는 항공기 조종사가 기내에서 같은 기내식을 먹지 않는다는 점도 중복화의 일환이라고 할 수 있다.[23]

철도 차량에서는 특히 브레이크의 전달 계통을 이중화하여, 한쪽 계통이 사용 불능이 되어도 다른 쪽으로 제어가 가능한 시스템이 1960년대 이후 각 철도 사업자에서 도입되었다. 구동계통에 관해서도 과거에는 전동차의 모터 제어가 일부 계열을 제외하고 주 제어기 1기당 4 - 8개를 구동하는 것이 주류였으나, VVVF 인버터 제어가 보급되면서 소형 제어기를 다수 배치하여 1 제어 장치당 모터 1 - 2개 구동으로 하고, 1개의 구동 계통이 고장나도 이를 스위치 등으로 차단(해방)함으로써 운전을 계속할 수 있게 함과 동시에 편성 전체에 대한 고장의 영향을 최소한으로 억제하는 시스템이 사용되게 되었다.

또한, 전철화된 철도에서는 변전소를 여러 개 갖추어, 어느 변전소가 고장나도 다른 변전소에서 전력을 공급함으로써 일정 수준의 운전을 계속할 수 있다.

영국에서 주로 셀라필드 발착 편으로 운전되는 방사성 물질 수송 열차에서, 중복성 확보의 목적으로 중련 운전이 이루어지고 있다. 중련 운전이란 여러 대의 기관차를 연결하여 운전하는 것으로, 만약 1대의 기관차가 고장나도 다른 기관차로 계속 운전이 가능해짐으로써 중복성이 유지된다.

일본에서는 직류전기 기관차가 사용되기 시작한 다이쇼 시대나 쇼와 시대 중기의 교류전기 기관차 초창기 등에 전기 기관차의 신뢰성이 낮았기 때문에, 신뢰성이 높은 증기 기관차와 중련 운전을 하는 "전증 운전"을 실시했다.

자동차의 브레이크는 전륜 좌측과 후륜 우측, 전륜 우측과 후륜 좌측으로 독립된 유압 시스템으로 구성되는 경우가 있다. 이 때문에 한쪽 유압 시스템에 고장이 발생해도 정지가 가능하다. 또한, 주차 브레이크를 주행 중에 작동시켜 감속하거나 낮은 기어로 엔진을 저항으로 만드는 것을 통해 어느 정도 감속이 가능하다.

8. 5. 전력 (일본어, 영어 위키에서 발췌)

전력 계통의 기능 정지는 전력 공급을 받는 모든 수요자에게 큰 피해를 준다. 특히 도시 규모의 광역 정전(대규모 정전)에서는 피해 규모가 크다.[1] 유럽미국 지역의 송전 회사나 일본의 전력 회사 등에서는 송전망 및 배전망의 사고를 순간적/단시간 내에 분리하여 피해 확대를 방지하면서 송전망 사고 지점의 우회로를 설치하여 피해를 국한시키고 있다.[1] 이 때문에 송전선은 동일 경로로 통상 2계통 이상이 병행하여 가설되어 있다.[1]

수요자 측에서도 전력 상실에 취약한 전자 기기에는 예상치 못한 정전에 대비하여 전용 무정전 전원 장치(UPS)를 갖추거나, 업무 지속이 강하게 요구되는 부문에서는 자가 발전 장치를 도입하고 있다.[1] 병원이나 공항에서의 전력 상실 사고는 직접 인명과 관련되므로, 예를 들어 일본의 병원에서는 가스터빈이나 디젤 엔진식 발전기 및 축전지가 설치되어 있어 일정 시간은 확실하게 전력을 확보할 수 있도록 되어 있다.[1]

8. 6. 건축 (일본어 위키에서 발췌)

2001년에 발생한 9.11 테러로 붕괴된 세계 무역 센터의 붕괴 과정을 조사한 결과, 세계 무역 센터의 철근 구조 시스템은 철저한 합리성과 최적화를 목표로 설계되었기 때문에 붕괴에 대한 여유를 거의 갖추지 못했다는 것이 밝혀졌다. 이 사건을 계기로 건축 구조 모델의 방향성은 최적화에서 여유 확보로 전환되었다.[24]

건축 분야에서 말하는 여유(리던던시)의 개념은 구조 해석이나 디자인에서 단순히 안전율을 높이는 것이 아니라, 건축 구조를 성립시키는 다양한 조건들의 상호 관계를 변수로 파악하고, 가능한 현실에 가까운 변수를 갖춘 합리적인 모델을 구축하는 것이다.[24] 이러한 건축 정보의 고도화에 대응하기 위해 BIM이나 AI 등 보다 고도화된 정보 처리 기술의 도입이 진행되고 있다.

8. 7. 이종 중복화 (일본어 위키에서 발췌)

이종 중복화는 서로 다른 종류와 구조를 이용한 중복화를 말하며, 다양성이라고도 한다.[7][8][9] 이를 통해 동일한 원인으로 모든 예비 시스템이 일제히 정지될 가능성을 줄여, 더욱 높은 장애 복원력을 확보할 수 있다.

예를 들어, 전차에서는 전기 브레이크, 유압 브레이크, 공압 브레이크와 같이 서로 다른 종류의 브레이크를 조합하여 사용한다.

전통적인 중복 방식과는 달리, 이종 중복 방식은 서로 다른 방식을 사용한다. 이는 서로 다른 방식들이 동일한 결함을 가질 가능성이 낮다는 아이디어에 기반한다. 다만, 두 방식이 서로 다른 시간을 소요하는 경우 투표 방식에 추가적인 복잡성이 발생할 수 있다. 이종 중복 방식은 동일한 소프트웨어가 동일한 결함을 포함하고 있기 때문에 소프트웨어와 함께 자주 사용된다.

다음은 고장 가능성을 줄이기 위해 최소 두 가지 이상의 서로 다른 유형을 사용하는 항목들이다.

항목유형
프로세서서로 다른 종류의 프로세서
운영 체제서로 다른 종류의 운영체제
소프트웨어서로 다른 종류의 소프트웨어
센서서로 다른 종류의 센서
액추에이터 유형전기, 유압, 공압, 수동 기계 등
통신 프로토콜서로 다른 종류의 통신 프로토콜
통신 하드웨어서로 다른 종류의 통신 하드웨어
통신 네트워크서로 다른 종류의 통신 네트워크
통신 경로서로 다른 종류의 통신 경로


참조

[1] PDF Redundancy Management Technique for Space Shuttle Computers http://www.research.[...] IBM Research
[2] 웹사이트 Analog Voting Circuit Is More Flexible Than Its Digital Version http://www.elecdesig[...] elecdesign.com 2003-12-04
[3] 웹사이트 The Aerospace Corporation | Assuring Space Mission Success http://www.aero.org/[...] Aero.org 2014-05-20
[4] 웹사이트 Learning from Normal Accidents https://web.archive.[...] 2004-03-01
[5] 서적 Fault-Tolerant Systems Morgan Kaufmann 2007
[6] PDF Smithsonian Institution | Office of Safety, Health, and Environmental Management | Fire Protection and Life Safety Design ManualIndependent Sources | Facilities with a maximum possible fire loss exceeding $ 50 million must have two independent sources of fire protection water. https://www.sifacili[...]
[7] PDF Why Dissimilar Redundant Architectures Are a Necessity for DAL A | Curtis Wright Defense Systems https://www.unitroni[...]
[8] 기사 Fire Alarm Circuits | A Class X circuit will continue to work with a single open or a single short-circuit by use of a redundant path. https://www.ecmag.co[...]
[9] 기사 Protecting against the power of lightning | to protect against induced surges rather than direct lightning strikes. Feb 1st, 2005 [[Twisted pair]] https://www.cablingi[...]
[10] 학술논문 Data Center Site Redundancy | H. M. Brotherton and J. Eric Dietz | Computer Information Technology, Purdue University https://docs.lib.pur[...]
[11] 학술논문 Data Center Site Redundancy | H. M. Brotherton and J. Eric Dietz | Computer Information Technology, Purdue University https://docs.lib.pur[...]
[12] PDF Factory Mutual Insurance Company | 1-20 Protection Against Exterior Fire Exposure https://fireprotecti[...]
[13] PDF National Research Council | Canada | Division Of Building Research | Spatial Separation Of Buildlngs | November 1959 http://web.mit.edu/p[...]
[14] PDF Tall Building Design Guidelines | City of Toronto | March 2013 | Page 52 | the separation distance between towers on the same site of 25 meters or more https://www.toronto.[...]
[15] PDF Protecting Residences From Wildfires | by Howard E. Moore (General Technical Report PSW-50) | page 30, item 10. https://www.fs.fed.u[...]
[16] 기사 On-Premises Cloud Is a Failure. Google Has the Fix https://redmondmag.c[...] 2023-05-17
[17] 문서 Facility Standards for Records Storage Facilities https://www.archives[...]
[18] 웹사이트 Standards for Permanent Records Storage and Presidential Libraries https://www.archives[...]
[19] 서적 System Sustainment: Acquisition And Engineering Processes For The Sustainment Of Critical And Legacy Systems World Scientific
[20] 서적 Reliability and Availability Engineering: Modeling, Analysis, and Applications Cambridge University Press
[21] 서적 Understanding Distributed Systems, Second Edition: What every developer should know about large distributed applications Roberto Vitillo 2022-02-23
[22] 문서 国鉄105系電車は、モーター故障時に動力台車を制御系から切り離し、1台車(2個モーター)での走行も可能であるなど冗長化が図られている。
[23] 문서 大手並びに準大手の電鉄会社で1950年代中頃から登場した高性能車、国鉄では1950年代末に登場した新性能電車がこれにあたる。
[24] 서적 メタル建築史:もうひとつの近代建築史 鹿島出版会 2016
[25] 웹사이트 冗長性 https://uxdaystokyo.[...] 2018-09-16
[26] 웹사이트 2重化と多様性の違いについて / 安全のヒント {{!}} オムロン制御機器 https://www.fa.omron[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com