다운타임
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
다운타임은 시스템 또는 장비의 작동 중단을 의미하며, 발생 원인, 범위, 지속 시간에 따라 다양한 유형으로 분류된다. 턴키, 차단기 대 차단기, 잠금/태그아웃 완료 등이 있으며, 하드웨어 고장, 소프트웨어 고장, 상호 연결 장비 고장 등 기술적 요인과 손상, 설계 결함 등 비기술적 요인으로 발생할 수 있다. 다운타임은 의료, 금융, 통신 등 24시간 서비스를 제공해야 하는 산업에 심각한 영향을 미치며, 경제적 손실을 초래할 수 있다. 서비스 수준 계약에서 다운타임은 백분율로 표시되며, 1% 이상의 다운타임은 용납할 수 없는 수준으로 간주될 수 있다. 다운타임을 예방하고, 발생 시 신속하게 대응하기 위해 헬프 데스크, 네트워크 관리 모델, 위험 관리 기술 등이 활용되며, 계획된 중단에는 유지 관리 기간, 롤링 업그레이드 등이 있다. 다운타임은 웹사이트 모니터링을 통해 관리될 수 있으며, 인적 자본이나 기타 자산의 중단을 의미하거나, 수면, 레크리에이션 기간을 지칭하는 데 사용되기도 한다.
더 읽어볼만한 페이지
| 다운타임 | |
|---|---|
| 개요 | |
| 영향 | 시스템 관리자에게 큰 영향을 줌 |
| 원인 | 자연 재해 인적 오류 악성 소프트웨어 하드웨어 또는 소프트웨어 결함 네트워크 혼잡 보안 침해 |
| 측정 | |
| 측정 기준 | 가용성 평균 고장 간격 (MTBF) 평균 수리 시간 (MTTR) |
2. 다운타임의 유형
다운타임은 발생 원인, 범위, 지속 시간에 따라 다양하게 분류될 수 있다. 다운타임 발생 시 계약 이행 과정에서 혼란과 분쟁을 예방하기 위해 다운타임의 시작점과 완료점에 대한 명확한 정의와 기준이 필요하다.
다운타임의 유형은 다음과 같이 나눌 수 있다.
- 턴키 (Turnkey): 가장 포괄적인 유형이다.
- 차단기 대 차단기 (Breaker to Breaker): 전원 회로 차단 시점부터 시작한다.
- 잠금/태그아웃 완료 (Lockout-Tagout Complete): 전원 및 제어 회로 차단, 위험원 중화 시점부터 시작한다.
온라인 테스트, 성능 테스트, 튜닝 등은 일반적으로 다운타임 또는 유지보수 이벤트 완료 후에 수행되며, 대부분 유지보수 계약자의 통제 범위를 벗어나므로 다운타임 지속 시간에 포함되지 않는다.
2. 1. 턴키 (Turnkey)
턴키는 모든 다운타임 유형 중에서 가장 포괄적인 유형이다. 다운타임 또는 유지보수는 플랜트 또는 장비 운영자가 가동 중단을 시작하기 위해 정지 또는 중지 버튼을 누르는 시점부터 시작된다. 별도로 언급되지 않는 한, 다운타임 또는 유지보수는 플랜트 또는 장비가 정상 작동 상태로 복귀하여 제조를 시작할 준비가 되거나, 시스템 또는 전력망과 동기화될 준비가 되거나, 펌프 또는 압축기 역할을 수행할 준비가 되었을 때 완료된 것으로 간주된다.2. 2. 차단기 대 차단기 (Breaker to Breaker)
차단기 대 차단기 다운타임 또는 유지보수는 플랜트나 장비 운영자가 전원 회로(주 전원 차단기)를 "off", "해제" 또는 "냉각 중" 상태로 작동을 중단하는 시점부터 시작된다. 이는 장비를 냉각시키거나 주변 온도까지 낮춰 다운타임/유지보수 작업을 준비하거나 시작할 수 있도록 하기 위함이다. 장비 유형에 따라, 주요 장비가 여전히 냉각 중이거나 대기 상태일 때 이러한 유형의 유지보수 작업을 수행할 수 있다. 따라서 제어 관련 유지보수를 외주하는 경우 "차단기 대 차단기" 다운타임이 유리할 수 있다. 별도로 언급되지 않는 한, 이 유형의 다운타임은 전원 차단기를 연결하여 전원 회로가 다시 가동될 때 완료된 것으로 간주된다.2. 3. 잠금/태그아웃 완료 (Lockout-Tagout Complete)
플랜트 또는 장비 운영자가 전원 회로를 차단하고, 제어 회로를 해제하며, 잠재적 전원 및 위험원을 중화(일반적으로 잠금, 태그아웃(LOTO)이라고 함)하는 시점부터 시작된다.[1] 이 유지보수 기간은 일반적으로 시설, 플랜트 또는 장비에서 실제 작업이 시작되기 전 다운타임 시작 단계의 마지막 단계이다.[1] 모든 작업이 수행되기 전에 항상 LOTO 활동에 따라 안전 브리핑이 필수적으로 동반되어야 한다.[1]별도로 언급되지 않는 한, 이 유형의 다운타임은 장비가 기계적 완료에 도달하고, 많은 대형 회전 장비의 경우 슬로우 롤(slow-roll)을 하거나, 모터의 범프 테스트 또는 회전 점검을 수행할 준비가 되었을 때 완료된 것으로 간주되지만, LOTO 절차에 따라 작업 허가를 반환하거나 따라야 한다.[1]
3. 다운타임의 원인
다운타임은 다양한 원인으로 발생할 수 있으며, 크게 기술적 요인과 비기술적 요인으로 구분할 수 있다. 기술적 요인으로는 하드웨어 고장, 소프트웨어 고장, 상호 연결 장비 고장, 전송 문제, 용량 문제 등이 있다. 비기술적 요인으로는 손상, 설계 결함, 절차적 오류, 엔지니어링 문제, 과부하, 환경 문제, 계획된 중단, 기타, 알 수 없음 등이 있다.[1]
고장 책임은 다음과 같다.[1]
| 고장 책임 |
|---|
| 고객/서비스 제공업체 |
| 공급업체/벤더 |
| 유틸리티 |
| 정부 |
| 계약업체 |
| 최종 고객 |
| 일반 개인 |
| 천재지변 |
| 기타(위에 해당하지 않지만 알려진 경우) |
| 알 수 없음 |
3. 1. 기술적 요인
다운타임은 다음과 같은 기술적 요인으로 발생할 수 있다.- 하드웨어(물리적 장비) 고장: 물리적인 장비 자체의 문제로 인해 발생한다.
- 소프트웨어(장비 제어 논리) 고장: 장비를 제어하는 논리 체계인 소프트웨어의 문제로 인해 발생한다.
- 상호 연결 장비(케이블, 시설, 라우터 등) 고장: 케이블, 시설, 라우터 등 장비들을 서로 연결하는 장비의 문제로 인해 발생한다.
- 전송 문제(무선, 마이크로파, 위성): 무선, 마이크로파, 위성 등 데이터 전송 과정에서 발생하는 문제이다.
- 용량 문제(시스템 한계 초과): 시스템이 처리할 수 있는 한계를 초과하여 발생하는 문제이다.
3. 2. 비기술적 요인
다운타임은 다음과 같은 비기술적 요인으로 발생할 수 있다.4. 다운타임의 영향
시스템 오류로 인한 다운타임은 컴퓨터/네트워크 시스템 사용자, 특히 거의 24시간 서비스를 제공해야 하는 산업 분야에 심각한 영향을 미칠 수 있다.[1]
다운타임의 영향을 받는 사람 또는 조직은 다음처럼 특정 측면에 더 민감할 수 있다.[1]
- 중단 시간으로부터 복구하는 데 걸리는 시간
- 중단 시간 (피크 시간 동안의 중단은 더 큰 영향)
가장 까다로운 사용자는 고가용성을 요구하는 사용자이다.
4. 1. 주요 피해 산업
- 의료 정보학[1]
- 원자력 발전 및 기타 기반 시설[1]
- 은행 및 기타 금융 기관[1]
- 항공학, 항공사[1]
- 뉴스 보도[1]
- 전자 상거래 및 온라인 거래 처리[1]
- 지속형 온라인 게임[1]
- ISP 사용자 및 통신 네트워크의 다른 고객[1]
4. 2. 경제적 손실
기업은 네트워크 중단으로 인해 사업 손실을 입거나 계약을 불이행하여 재정적 손실을 입을 수 있다. Veeam의 2019년 클라우드 데이터 관리 보고서에 따르면, 조직은 연평균 5~10번의 계획되지 않은 다운타임을 겪으며, 한 시간의 다운타임당 평균 비용은 102450USD이다.[1]5. 주요 다운타임 사례
다음은 주요 다운타임 사례들이다.
- 1988년 5월 8일, 일리노이 벨 전화 회사의 힌스데일 중앙 사무소에서 화재가 발생하여 대규모 통신 장애가 발생했다.
- 1990년 1월 15일, AT&T의 장거리 서비스가 소프트웨어 버그로 인해 중단되었다.
- 1998년 4월 13일, AT&T의 프레임 릴레이 네트워크가 26시간 동안 다운되어 수천 명의 고객이 피해를 입었다.
- 2007년~2008년 휴가 시즌 동안, Xbox Live가 13일 동안 간헐적으로 다운되었다.
- 2011년 4월, 소니의 PlayStation Network가 외부 침입으로 인해 장기간 다운되었다.
- 2011년 말, 텔스트라(Telstra)의 라이드 스위치가 악천후로 인해 고장나 72만 개 이상의 서비스에 영향을 미쳤다.
- 2016년 2월 29일, ServerAxis의 마이애미 데이터센터가 예고 없이 오프라인 상태가 되어 복구되지 않았다.
- 2021년 10월, 게임 플랫폼 로블록스가 치폴레 이벤트 기간에 3일 동안 다운되었다.
- 2022년 7월 8일, 로저스 커뮤니케이션은 캐나다에서 전국적인 대규모 정전을 겪었다.
- 2024년 7월 19일, CrowdStrike는 Falcon 소프트웨어 업데이트 문제로 전 세계적으로 약 850만 대의 윈도우 시스템에 영향을 미치는 사고를 냈다. 이는 정보기술 역사상 가장 큰 정전 사태로 여겨진다.
5. 1. 1988년 일리노이 벨 전화 회사 화재
1988년 5월 8일 어머니날, 일리노이 벨 전화 회사의 힌스데일 중앙 사무소에서 화재가 발생했다.[2] 이 시설은 일리노이 주에서 가장 큰 스위칭 시스템 중 하나로, 매일 350만 건 이상의 통화를 처리했으며 38,000명 이상의 고객에게 서비스를 제공했다. 화재로 인해 이들 고객은 서비스 중단을 겪었다.[2]5. 2. 1990년 AT&T 장거리 서비스 중단
1990년 1월 15일, AT&T의 4ESS 톨 탠덤 스위치에 소프트웨어 버그가 발생하여 미국 전역의 장거리 서비스가 중단되었다. 트래픽이 줄어들면서 문제는 저절로 해결되었다.[3]5. 3. 1998년 AT&T 프레임 릴레이 네트워크 손실
1998년 4월 13일, AT&T는 26시간 동안 프레임 릴레이 네트워크 손실을 겪었다.[4] 이로 인해 수천 명의 고객이 피해를 보았고, 은행 거래도 중단되었다. AT&T는 고객과의 계약에 따른 서비스 수준 계약을 준수하지 못해[5] 6,600개의 고객 계정에 대해 환불해야 했으며, 수백만 달러의 손실을 입었다.5. 4. 2007-2008년 Xbox Live 가동 중단
Xbox Live는 2007-2008년 휴가 시즌 동안 13일 동안 간헐적으로 가동이 중단되었다.[6] Xbox 360 구매자들의 수요 증가(Xbox Live 역사상 가장 많은 신규 사용자 가입자 수)가 가동 중단의 원인으로 제시되었고, 서비스 문제에 대한 보상으로 마이크로소프트는 사용자에게 무료 게임을 받을 기회를 제공했다.[7]5. 5. 2011년 PlayStation Network 정전 사태
소니의 2011년 PlayStation Network 정전은 2011년 4월 20일에 시작되어 2011년 5월 14일에 미국에서 시작하여 점차 복구되었다.[8] 이 정전은 PSN이 2006년 출시 이후 가장 오랫동안 오프라인 상태였던 기간이다. 소니는 문제의 원인이 개인 정보가 탈취된 외부 침입이라고 밝혔다. 소니는 2011년 4월 26일에 가동 중단을 초래한 것과 동일한 해킹으로 인해 다량의 사용자 데이터가 유출되었다고 보고했다.[8]5. 6. 2016년 ServerAxis 데이터센터 정전
ServerAxis의 마이애미 데이터센터는 2016년 2월 29일에 예고 없이 오프라인 상태가 되었고, 복구되지 않았다. 이로 인해 여러 제공업체와 수백 개의 웹사이트가 영향을 받았다.[9] 이 정전은 2016년 NCAA 디비전 I 여자 농구 토너먼트 중계에도 영향을 미쳤는데, 영향을 받은 사이트 중 하나인 WBBState가 여자 농구 통계를 제공하는 가장 포괄적인 곳이었기 때문이다.[9]5. 7. 2021년 Roblox 가동 중단
로블록스는 2021년 10월 치폴레 이벤트 기간에 가동 중단을 겪었다. 많은 사용자들이 큰 호응을 얻었던 이 이벤트 때문에 가동 중단이 발생했다고 생각했다. 사용자들은 이벤트 기간 동안 무료 치폴레 부리토를 받을 수 있었다. 이 가동 중단은 로블록스 역사상 가장 긴 가동 중단으로, 3일 동안 지속되었다.[10][11][12]5. 8. 2022년 로저스 커뮤니케이션 가동 중단
2022년 7월 8일, 로저스는 캐나다에서 전국적인 대규모 정전을 겪었다. 이로 인해 휴대폰 및 인터넷 접속이 동시에 영향을 받았고, 911 통화, 은행 간 거래 실패, 정부 서비스 중단이 발생했다.[13]5. 9. 2024년 CrowdStrike 사고
2024년 7월 19일, CrowdStrike는 Falcon 소프트웨어에 대한 결함이 있는 장치 드라이버 업데이트를 발행하여, 윈도우 PC, 서버 및 가상 머신에서 충돌 및 부팅 루프가 발생했다.[13][14] 이 사고로 의도치 않게 전 세계적으로 약 850만 대의 윈도우 시스템이 영향을 받았으며, 여러 주에서 911 서비스와 같은 핵심 인프라도 포함되었다.[13][14] 이는 정보기술 역사상 가장 큰 정전 사태로 여겨진다.[13][14]6. 서비스 수준
서비스 수준 계약에서는 다운타임 기간의 합을 기준 시간(예: 한 달)의 총 시간으로 나누어 계산한 백분율 값(월별 또는 연도별)을 언급하며, 0% 다운타임은 서버가 항상 사용 가능하다는 것을 의미한다.
6. 1. 다운타임 허용 수준
인터넷 서버의 경우, 연간 1% 이상의 다운타임은 용납할 수 없는 수준으로 간주될 수 있으며, 이는 연간 3일 이상의 다운타임을 의미한다. 전자 상거래 및 기타 산업적 사용의 경우, 0.1% 이상의 값은 일반적으로 용납될 수 없는 것으로 간주된다.[15]7. 다운타임 대응 및 영향 감소
다운타임 발생을 예방하고, 발생 시 영향을 최소화하기 위한 다양한 노력이 필요하다. 다운타임의 가장 큰 원인 중 하나는 계획된 변경 과정에서 발생하는 구성 오류이다. 일반적으로 조직은 구성 백업 프로세스를 관리하기 위해 수동 작업에 의존하지만, 이는 여러 공급업체 네트워크에서 프로세스를 관리할 시간이 있는 숙련된 엔지니어가 필요하다. 자동화 도구를 사용하여 백업을 관리할 수는 있지만, 중단의 전체적인 영향을 최소화하는 데 필요한 구성 복구를 처리하는 솔루션은 거의 없다.[16]
7. 1. 다운타임 예방
네트워크 설계자는 네트워크 중단을 방지할 의무가 있다. 네트워크 중단이 발생할 경우, 잘 설계된 시스템은 지역적인 중단을 통해 중단의 영향을 줄일 수 있다.오작동을 감지하고 (네트워크 모니터링) 네트워크를 작동 상태로 복원하는 프로세스가 필요하며, 이는 일반적으로 문제를 문제 해결할 수 있는 훈련된 엔지니어로 구성된 헬프 데스크 팀을 포함한다.
위험 관리 기술을 사용하여 조직에 대한 네트워크 중단의 영향을 결정하고 위험을 최소화하기 위해 필요한 조치를 결정할 수 있다. 위험은 신뢰할 수 있는 구성 요소를 사용하고, 업그레이드와 같은 유지 관리를 수행하고, 중복 시스템을 사용하거나 비상 계획 또는 비즈니스 연속성 계획을 수립하여 최소화할 수 있다.[16]
7. 2. 다운타임 발생 시 대응
잘 설계된 시스템은 다운타임을 가능한 한 빨리 감지하고 수정할 수 있어야 한다.[16] 네트워크 중단을 감지하고 네트워크를 작동 상태로 복원하기 위한 프로세스가 필요한데, 여기에는 일반적으로 문제를 문제 해결할 수 있는 숙련된 엔지니어로 구성된 헬프 데스크 팀이 포함된다.[16] 다운타임 동안 사용자 요청을 처리하기 위해 별도의 헬프 데스크 팀이 필요할 수도 있다.[16]네트워크 관리 모델 시스템을 사용하여 고객 불만이 제기되기 전에 결함이 있거나 성능이 저하된 구성 요소를 감지하고 사전 예방적으로 오류를 수정할 수 있다.[16]
위험 관리 기술을 사용하여 네트워크 중단이 조직에 미치는 영향을 파악하고 위험을 최소화하기 위한 조치를 결정할 수 있다.[16] 신뢰할 수 있는 구성 요소를 사용하고, 업그레이드와 같은 유지보수를 수행하고, 중복 시스템을 사용하거나 비상 계획 또는 비즈니스 연속성 계획을 수립하여 위험을 최소화할 수 있다.[16]
기술적인 수단으로는 오류 정정 코드, 재전송, 체크섬, 다이버시티 방식 등을 사용하여 오류를 줄일 수 있다.[16]
8. 다운타임 계획
계획된 다운타임은 시스템 소유자나 서비스 제공업체가 미리 계획하여 발생하는 중단이다.
다운타임은 태양 흑점과 같이 예측 가능한 자연 현상 때문에 계획되기도 한다.
컴퓨터 시스템에 의존하는 산업에서는 유지보수 중단을 신중하게 계획해야 한다.
8. 1. 유지 관리 기간
계획된 중단은 시스템 소유자 및/또는 서비스 제공업체의 계획된 활동의 결과이다. 이러한 중단은 종종 유지 관리 기간 동안 예정되며, 다음과 같은 작업을 수행하는 데 사용될 수 있다.- 연기된 유지 관리 (예: 연기된 하드웨어 수리 또는 손상된 메모리를 정리하기 위한 연기된 재시작)
- 감지된 결함을 격리하기 위한 진단
- 하드웨어 결함 수리
- 구성 데이터베이스의 오류 또는 누락 수정, 또는 최근 구성 데이터베이스 변경 사항의 누락 수정
- 응용 프로그램 데이터베이스의 오류 또는 최근 응용 프로그램 데이터베이스 변경 사항의 오류 수정
- 소프트웨어 결함을 해결하기 위한 소프트웨어 패치/소프트웨어 업데이트
중단은 태양 흑점과 같은 예측 가능한 자연 현상의 결과로 계획될 수도 있다.
유지 관리 중단은 컴퓨터 시스템에 의존하는 산업에서 신중하게 계획되어야 한다. 많은 경우, 전체 기능에 영향을 미치지 않으면서 업그레이드를 위해 시스템의 일부를 점진적으로 중단하는 과정인 "롤링 업그레이드"를 사용하여 시스템 전체의 중단을 피할 수 있다.
8. 2. 롤링 업그레이드
서비스 제공업체의 계획된 활동의 결과로 시스템 소유자에 의해 유지 관리 중단이 계획될 수 있다. 많은 경우, 전체 기능에 영향을 미치지 않으면서 업그레이드를 위해 시스템의 일부를 점진적으로 중단하는 과정인 롤링 업그레이드를 사용하여 시스템 전체의 중단을 피할 수 있다.[1]9. 다운타임 회피
웹사이트 모니터링을 통해 웹사이트의 다운타임을 감지하고 사용자에게 알릴 수 있다.
10. 기타 용례
다운타임은 인적 자본이나 기타 자산이 중단되는 시간을 의미하기도 한다. 예를 들어, 직원들이 회의에 참석하거나 다른 제약으로 인해 업무를 수행할 수 없을 때, 그들은 다운된 상태이다. 이것은 비용이 많이 들 수 있으며, 다른 자산(예: 컴퓨터/시스템)의 다운으로 인해 발생할 수 있다. 이것은 일반적으로 "유휴 시간"이라고도 한다.[17]
다운타임은 또한 개인적인 의미로 일반화되어, 수면 또는 레크리에이션 기간을 지칭하는 데 사용된다.[18][19]
이 용어는 공장이나 산업 용도로도 사용된다. 전사적 생산 보전 (TPM)을 참조하십시오.
참조
[1]
웹사이트
2021 Data Protection Trends Executive Brief
https://go.veeam.com[...]
[2]
간행물
Risks of Single Point Failures: The Hinsdale Fire
http://catless.ncl.a[...]
1988-05-11
[3]
웹사이트
The Crash of the AT&T Network in 1990
http://www.phworld.o[...]
1990-02-26
[4]
웹사이트
Preventing IP Network Service Outages
https://www.keysight[...]
2002-03-15
[5]
간행물
AT&T Announces Cause of Frame Relay Network Outage
http://catless.ncl.a[...]
1998-05-07
[6]
웹사이트
Xbox Live outage, day 13: still up and down, still preventing fun from being had
https://www.engadget[...]
Engadget
2011-04-27
[7]
웹사이트
Microsoft offers free game for Xbox Live holiday problems
http://www.pcworld.c[...]
2008-01-04
[8]
웹사이트
Restoration of PlayStation®Network and Qriocity Services begins
http://www.sony.com/[...]
2021-10-22
[9]
웹사이트
A Website Went Offline And Took Most Of Women's College Basketball Analytics With It
https://fivethirtyei[...]
2016-03-16
[10]
웹사이트
Roblox's Servers Are Back Online [Update]
https://www.ign.com/[...]
2021-10-29
[11]
웹사이트
Is Roblox down? Why the gaming platform isn't working today with thousands of users reporting login problems
https://www.msn.com/[...]
[12]
웹사이트
Roblox was down all weekend, and not because of Chipotle
https://www.theverge[...]
2021-10-30
[13]
뉴스
Slow recovery from IT outage begins as experts warn of future risks
https://www.theguard[...]
2024-07-21
[14]
웹사이트
Helping our customers through the CrowdStrike outage
https://blogs.micros[...]
2024-07-21
[15]
웹사이트
Downtime, Outages and Failures - Understanding Their True Costs
https://www.evolven.[...]
2021-10-22
[16]
웹사이트
Why Machine Downtime Tracking Matters?
https://evocon.com/k[...]
2018-09-10
[17]
웹사이트
Rest & Relaxation: Why "Downtime" Is Important For Kids
https://thenaturalnu[...]
2016-09-19
[18]
웹사이트
The Importance of Scheduling Downtime
https://www.lifehack[...]
2008-08-25
[19]
웹사이트
What Lack of Sleep Does to Your Mind
https://www.webmd.co[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com