비식별화

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

비식별화는 연구에서 데이터 기여자의 신원을 데이터 세트와 분리하여, 연구 주최자조차 재식별을 방지하는 기술을 의미한다. 가명화, k-익명화 등의 기술이 사용되며, 개인 식별자를 마스킹하거나 준식별자를 일반화하는 전략이 활용된다. 설문 조사, 온라인 쇼핑, 건강 정보, 빅데이터, 스마트 도시 등 다양한 분야에서 활용되며, 특히 건강 정보 보호를 위해 중요하게 다루어진다. 하지만 유전학 연구와 같이 데이터의 특성상 식별 정보 제거가 어려운 경우도 있으며, 미국의 HIPAA 개인정보보호 규칙과 같은 관련 법률 및 정책이 존재한다.

비식별화

지도

기본 정보

유형	정보 보안 기술
목적	개인 식별 정보의 노출 위험 감소
적용 분야	개인 정보 보호 데이터 보안 의료 정보 신원 확인

비식별화 방법

주요 기법	가명 처리 총계 처리 데이터 마스킹 랜덤화 암호화 데이터 삭제

주요 고려 사항

데이터 유용성	비식별화 후에도 데이터가 유용해야 함
정보 손실	비식별화 과정에서 정보 손실 최소화
재식별 위험	재식별 시도에 대한 강건성 확보

관련 법규 및 규제

국가별 법규	개인정보보호법 GDPR HIPAA
목적	데이터 프라이버시를 보장하고 개인정보 남용 방지

기술적 접근법

개인 식별자 제거	이름, 주소, 주민등록번호 등
데이터 일반화	값의 범위를 넓게 변경 (예: 나이 범주화)
데이터 교환	값의 범위를 넓게 변경 (예: 위치 정보 교환)
데이터 왜곡	데이터에 노이즈를 추가하거나 값을 변경

도전 과제

데이터 유용성 유지	분석 및 연구에 필요한 정보 유지
재식별 공격 방어	링크 공격, 추론 공격 등
지속적인 관리	기술 및 법규 변화에 따른 업데이트 필요

추가 정보

관련 용어	데이터 익명화 개인 정보 보호 가명화 익명화

참고 자료

문서	미국 보건복지부(HHS)의 비식별화 방법 보건 데이터에 대한 재식별 공격에 대한 체계적인 검토 인간 이동성의 프라이버시 한계 쇼핑몰에서 유일함: 신용카드 메타데이터의 재식별 가능성
연구 논문	넷플릭스 프라이즈 데이터셋의 익명성 파괴 방법 멀티미디어 콘텐츠에서 개인 정보 보호를 위한 비식별화에 대한 조사

주요 인용

스위니(L. Sweeney)	단순한 인구 통계로도 사람들을 고유하게 식별할 수 있음을 보여주는 연구

📚 더 읽어볼만한 페이지

정보 프라이버시 - 일반 데이터 보호 규칙
일반 데이터 보호 규칙(GDPR)은 개인 정보 보호를 강화하고 EU 역내 규제를 통합하기 위해 2018년 5월 25일부터 EU 27개 회원국에 시행된 법규이다.
정보 프라이버시 - 지불 카드 산업 데이터 보안 표준
연구 윤리 - 스탠퍼드 감옥 실험
스탠퍼드 감옥 실험은 1971년 필립 짐바르도가 수행한 심리학 실험으로, 평범한 사람들이 역할과 상황에 따라 어떻게 행동하는지 연구하기 위해 가상의 감옥 환경을 조성하여 교도관과 수감자 역할을 부여했으며, 상황적 요인이 개인의 행동에 미치는 영향과 권력 및 복종의 심리학을 보여주었지만 윤리적 문제로 비판받았다.
연구 윤리 - 헬싱키 선언
헬싱키 선언은 세계의사협회가 채택한 인간 대상 의학 연구의 윤리적 기준을 제시하는 선언으로, 개인 존중, 자기결정권, 정보에 입각한 동의를 중시하며 연구 참여자의 복지를 우선해야 함을 강조하지만, 개정 과정 논란과 일부 기관의 인정 거부로 권위와 미래에 대한 논의가 진행 중이다.

1. 개요
2. 비식별화 (Anonymization)
- 2.1. 가명화 (Pseudonymization)
- 2.2. k-익명화 (k-anonymization)
3. 비식별화 기술 (Techniques)
4. 활용 사례 (Examples)
5. 한계점 (Limits)
6. 미국의 비식별화 관련 법률 (De-identification laws in the United States of America)
- 6.1. 세이프 하버 (Safe harbor)
- 6.2. 전문가 결정 (Expert Determination)

2. 비식별화 (Anonymization)

비식별화는 연구에서 데이터 기여자의 신원을 데이터 세트와 돌이킬 수 없이 분리하여, 연구 주최자를 포함한 그 누구도 어떠한 조건에서도 향후 재식별할 수 없도록 하는 것을 말한다. 개인정보 비식별화는 특정 상황에서 신뢰할 수 있는 당사자만 다시 연결할 수 있도록 식별 정보를 보존하는 것을 포함할 수도 있다. 하지만, 신뢰할 수 있는 당사자라도 데이터를 다시 연결할 수 있다면 이를 진정한 개인정보 비식별화로 볼 수 있는지에 대해서는 기술계에서 논쟁이 있다.

2.1. 가명화 (Pseudonymization)

가명화는 실제 이름을 임시 ID로 대체하여 수행된다. 개인 식별자를 삭제하거나 가려서(마스킹) 개인을 식별할 수 없도록 만든다. 이 방법을 사용하면 기록이 업데이트되더라도 시간에 따라 개인의 기록을 추적할 수 있다. 그러나 데이터 기록의 특정 속성 조합이 개인을 간접적으로 식별하는 경우, 개인을 식별하지 못하게 하는 것을 막을 수 없다.

2.2. k-익명화 (k-anonymization)

k-익명화는 개인의 신원을 간접적으로 나타내는 속성을 준식별자(QI)로 정의하고, 적어도 k명의 개인이 특정 QI 값 조합을 가지도록 데이터를 처리하는 방법이다. QI 값은 특정 표준에 따라 처리된다. 예를 들어, k-익명화는 레코드 내 일부 원본 데이터를 새로운 범위 값으로 바꾸고 일부 값은 변경하지 않은 채 유지한다. QI 값의 새로운 조합은 개인 식별을 방지하고, 동시에 데이터 레코드 파괴도 피할 수 있게 해준다.

3. 비식별화 기술 (Techniques)

데이터 비식별화의 일반적인 전략은 개인 식별자를 마스킹하고 준 식별자를 일반화하는 것이다. 가명화는 데이터 레코드에서 개인 식별자를 마스킹하는 데 사용되는 주요 기술이며, k-익명화는 일반적으로 준 식별자를 일반화하는 데 사용된다.

PHI (Protected Health Information)는 다양한 데이터 형식으로 존재하며, 각 형식에 따라 데이터 비식별화를 위한 특정 기술과 도구가 필요하다.

* 텍스트 데이터 비식별화는 규칙 기반 및 NLP (자연어 처리) 방식을 사용한다.
* PDF 데이터 비식별화는 텍스트 데이터 비식별화를 기반으로 하며, 대부분의 경우 OCR 및 PDF 내 PHI를 숨기기 위한 특정 기술이 필요하다.
* DICOM 데이터 비식별화는 메타데이터, 픽셀 데이터, 캡슐화된 문서를 정리하는 작업이 필요하다.

4. 활용 사례 (Examples)

인구 조사와 같은 설문 조사는 특정 집단에 대한 정보를 수집하지만, 참여를 장려하고 응답자의 개인 정보를 보호하기 위해 개인의 응답을 발표된 데이터와 연결할 수 없도록 설계한다. 온라인 쇼핑 웹사이트는 사용자의 선호도와 쇼핑 습관을 파악하기 위해 고객 데이터를 분석하지만, 개인 식별 정보를 포함한 개인 정보 보호를 위해 비식별화 기법을 사용한다.

4.1. 건강 정보 (Health Information)

개인 식별 정보 제거에 대한 연구는 주로 건강 정보 보호를 위해 추진된다. 일부 도서관에서는 이용자의 개인 정보를 보호하기 위해 의료 산업에서 사용되는 방법을 채택하기도 했다.

전자 건강 기록(EHR, Electronic Health Record) 데이터 연구에 대한 핵심 법규는 건강보험 양도 및 책임에 관한 법(HIPAA, Health Insurance Portability and Accountability Act) 개인정보보호 규칙(Privacy Rule)이다. 이 법은 연구 목적으로 사망자의 전자 건강 기록을 사용하는 것을 허용한다 (HIPAA 개인정보보호 규칙 (164.512(i)(1)(iii)조)).

4.2. 빅데이터 (Big Data)

빅데이터에서 개인 식별 정보 제거는 개인과 기업에서 널리 채택하고 있다. 소셜 미디어, 전자상거래 및 빅데이터의 발전과 함께, 사용자의 개인 데이터가 기업 또는 제3자 기관에 의해 수집되어 자체 용도로 분석될 때, 개인 식별 정보 제거는 때때로 필요하며 종종 데이터 프라이버시를 위해 사용된다.

온라인 쇼핑 웹사이트가 사용자의 선호도와 쇼핑 습관을 파악하고자 할 때, 데이터베이스에서 고객 데이터를 검색하여 분석하기로 결정한다. 개인 데이터 정보에는 고객이 계정을 생성할 때 직접 수집된 개인 식별 정보가 포함된다. 웹사이트는 고객의 개인 정보 보호를 침해하지 않도록 데이터 레코드를 분석하기 전에 비식별화 기법을 통해 데이터를 사전 처리해야 한다.

4.3. 스마트 도시 (Smart City)

스마트 도시에서는 거주자, 근로자 및 방문객의 개인 정보를 보호하기 위해 개인 식별 정보 제거가 필요할 수 있다. 그러나 엄격한 규제 없이는 센서가 동의 없이 정보를 수집할 수 있기 때문에 개인 식별 정보 제거가 어려울 수 있다.

5. 한계점 (Limits)

유전학 연구에 참여하는 사람은 생물학적 검체를 기증할 때 방대한 양의 개인정보 데이터가 생성되는 경우가 많다. 이러한 데이터는 특히 식별 정보를 제거하기 어렵다.

유전자 데이터의 익명화는 특히 다음과 같은 이유로 어렵다.

* 생물 검체에 포함된 방대한 양의 유전자형 정보
* 검체가 종종 의료 기록과 연결된다는 점
* 데이터 마이닝을 위한 현대 생물정보학 도구의 발전

이러한 이유들 때문에 집계된 유전자형 데이터 세트에 있는 개인의 데이터가 검체 기증자의 신원과 연결될 수 있다는 것이 입증되었다.

일부 연구자들은 유전학 연구 참가자들에게 익명성을 유지할 수 있다고 약속하는 것은 합리적이지 않으며, 대신 식별 정보 제거 과정에서 코드화된 식별자 사용의 한계를 참가자들에게 알려야 한다고 제안한다.

6. 미국의 비식별화 관련 법률 (De-identification laws in the United States of America)

미국 건강보험 이동성 및 책임법(HIPAA)의 개인정보보호 규칙은 환자의 동의 없이도 건강 데이터를 책임감 있게 사용하고 공개하는 메커니즘을 제공한다. HIPAA는 비식별화를 위한 두 가지 표준, 즉 세이프 하버와 전문가 결정 방법을 제시한다.

2014년 5월, 미국 과학기술 자문위원회는 비식별화가 "추가적인 안전장치로서 다소 유용하지만", "강력한 재식별 방법이 나타날 가능성을 고려하면 정책의 유용한 근거가 되지는 않는다"는 결론을 내렸다.

6.1. 세이프 하버 (Safe harbor)

안전항 방식은 비식별화에 목록 접근 방식을 사용하며, 다음 두 가지 요구 사항이 있다.

# 데이터에서 18개 요소를 제거하거나 일반화한다.
# 보호대상기관 또는 사업협력자가 잔여 정보가 단독으로 또는 다른 정보와 결합하여 개인을 식별하는 데 사용될 수 있다는 사실을 실제로 알고 있지 않아야 한다.

안전항은 비식별화에 대한 매우 규범적인 접근 방식이다. 이 방법에 따라 모든 날짜는 연도로 일반화되고 우편번호는 세 자리로 줄여야 한다. 맥락에 관계없이 데이터에 동일한 접근 방식을 사용한다. 예를 들어, 신뢰할 수 있는 연구원이 급성 호흡기 질환의 계절적 변화를 분석하기 위해 데이터를 분석하고자 하며, 따라서 입원 월이 필요하더라도 이 정보는 제공할 수 없다. 입원 연도만 유지된다.

6.2. 전문가 결정 (Expert Determination)

전문가 판단은 보호된 개인정보에서 개인을 식별할 수 있는 가능성을 결정하기 위해 연구에서 현재 표준 및 모범 사례를 적용하는 위험 기반의 비식별화 접근 방식을 취한다. 이 방법은 일반적으로 받아들여지는 통계적 및 과학적 원칙과 방법에 대한 적절한 지식과 경험을 갖춘 사람이 정보를 개별적으로 식별할 수 없도록 해야 한다. 다음 사항이 요구된다.

# 예상되는 수신자가 정보만으로 또는 다른 합리적으로 이용 가능한 정보와 결합하여 정보의 주체인 개인을 식별하는 데 사용될 위험이 매우 낮아야 한다.
# 그러한 결정을 정당화하는 분석의 방법과 결과를 문서화해야 한다.