맨위로가기

복구 지향 컴퓨팅

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

복구 지향 컴퓨팅은 시스템의 고장으로부터의 빠른 복구를 목표로 하는 컴퓨팅 방식이다. 이는 시스템 설계, 격리 및 중복성, 시스템 전체 실행 취소 지원, 통합 진단 지원, 온라인 검증 및 복구 메커니즘, 모듈성, 측정 가능성 및 재시작성을 핵심 기술로 한다. 복구 지향 컴퓨팅 시스템은 빠른 복구를 지원하고, 고장 원인을 정확하게 찾아내며, 실수를 신속하게 바로잡도록 설계되어야 한다. 또한, 시스템의 신뢰성, 내구성 및 가용성을 평가하기 위해 벤치마킹을 수행한다.

2. 복구 지향 컴퓨팅의 실행

실행 방식은 다음과 같다.[2]


  • 복구를 빠르게 하는 시스템을 고안한다.
  • 많은 구성 시스템에서 고장 원인을 정확히 찾는다.
  • 실수를 바로잡는다.

2. 1. 시스템 설계

복구 지향 컴퓨팅(ROC) 시스템은 다음과 같은 방식으로 실행된다.[2]

  • 빠른 복구를 지원하도록 설계되었다.
  • 여러 구성 시스템에서 고장의 원인을 정확하게 찾아낸다.
  • 실수를 신속하게 바로잡는다.

3. 핵심 기술

3. 1. 격리 및 중복성

복구 지향 컴퓨팅 시스템에서 격리는 중복성을 필요로 한다. 시스템의 한 부분이 고장 나면 중복된 부분이 그 자리를 대신해야 한다. 격리는 소프트웨어 또는 사람으로 인한 오류 등 모든 유형의 오류에 대해 오류 방지 기능이 있어야 한다. 시스템의 일부를 격리하는 한 가지 잠재적인 방법은 젠과 같은 가상 머신 모니터를 사용하는 것이다. 가상 머신 모니터를 사용하면 여러 가상 머신이 물리적 머신에서 실행될 수 있으며, 하나의 가상 머신에 문제가 발생하면 물리적 머신을 다시 시작하지 않고도 다시 시작하거나 중지하고 다른 가상 머신이 그 자리를 대신할 수 있다.

3. 2. 시스템 전체 실행 취소 지원

서로 다른 프로그램과 시간대에 걸쳐 실행 취소를 수행하는 기능은 시스템 오류의 약 절반이 인간의 실수로 인해 발생하기 때문에 필수적이다.[1] 실행 취소 지원이 없으면 시행착오를 허용하지 않으므로 프로덕션 시스템의 테스트 측면도 제한된다.

시스템 전체의 실행 취소 지원은 하드웨어 및 소프트웨어 업그레이드, 구성뿐만 아니라 응용 프로그램 관리를 포함하여 시스템의 모든 측면을 다루어야 한다. 실행 취소할 수 있는 항목에는 제한이 있으며, 이러한 제한은 현재 트레이드 오프를 기반으로 탐색, 테스트 및 평가되고 있다.

3. 3. 통합 진단 지원

통합 진단 지원은 복구 지향 컴퓨팅(ROC)이 갖춰야 할 또 다른 특징이다. 이는 시스템이 시스템 오류의 근본 원인을 식별할 수 있어야 함을 의미한다. 일단 오류의 원인을 식별하면, 다른 시스템 부분에 영향을 미치지 않도록 오류를 격리하거나, 또는 오류를 복구할 수 있어야 한다. 모든 시스템 구성 요소 또는 모듈은 자체 테스트를 수행해야 하며, 자체적으로 문제가 발생했는지 여부를 파악할 수 있어야 한다. 모듈은 자체 문제점을 파악하는 것 외에도, 의존하는 다른 모듈의 동작을 검증할 수 있어야 한다. 또한 시스템은 시스템 전체에서 모듈, 리소스 및 사용자 요청 간의 종속성을 추적해야 한다. 이는 오류 격리를 가능하게 한다.

3. 4. 온라인 검증 및 복구 메커니즘

복구 메커니즘은 시스템이 장애로부터 복구할 수 있는 방법이다. 이러한 복구 메커니즘은 신뢰할 수 있고, 효과적이며, 효율적이어야 한다. 이러한 시스템은 복구 메커니즘의 동작을 테스트하고 검증하는 데 적극적이어야 하며, 실제 장애가 발생할 경우 이러한 메커니즘이 설계된 대로 작동하여 시스템 복구에 도움이 될 수 있도록 해야 한다. 이러한 검증은 생산 수준 장비에서도 수행되어야 한다. 생산 수준 장비는 가동 상태를 유지하는 것이 가장 중요하기 때문이다. 이러한 테스트를 수행하는 두 가지 방법이 있으며, 이 두 가지 모두 사용해야 한다. 첫 번째 방법은 테스트가 설정되고 실행되는 직접 테스트이다. 다른 방법은 경고 없이 발생하는 임의 테스트이다.

3. 5. 모듈성, 측정 가능성 및 재시작성

소프트웨어 노후화 문제는 영향을 받는 구성 요소를 다시 시작하여 해결하는 것이 가장 좋다. 여기에는 모듈성과 재시작 가능성이 모두 필요하다. 구성 요소는 실패하기 전에 다시 시작해야 하며, 이 옵션을 사용할 수 있도록 설계하거나, 더 나아가 자동으로 수행되도록 설계해야 한다. 응용 프로그램 역시 재시작 가능하도록 설계해야 한다.

4. 벤치마크

이러한 시스템은 개선 과정을 추적하여 시스템의 존재와 사용을 정당화하기 위해 빈번한 신뢰성 및 가용성 벤치마킹을 수행해야 한다. 이러한 벤치마크는 재현 가능해야 하며, 시스템의 신뢰성, 내구성 및 가용성에 대한 공정한 척도여야 한다.

참조

[1] 웹사이트 Addressing Human Error with Undo http://roc.cs.berkel[...] ROC Retreat 2020-02-24
[2] 서적



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com