적대적 기계 학습

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

적대적 기계 학습은 기계 학습 모델을 속여 의도적으로 잘못된 결과를 생성하도록 설계된 공격 기술을 의미한다. 2004년 초에 스팸 필터를 우회하기 위한 연구에서 시작되어, 딥 러닝 모델의 발전과 함께 더욱 정교해졌다. 공격은 분류기의 영향을 조작하거나, 데이터 무결성을 해치거나, 특정 결과를 유도하는 방식으로 이루어지며, 데이터 포이즈닝, 회피 공격, 모델 추출 등이 대표적이다. 이에 대응하기 위해 위협 모델링, 공격 시뮬레이션, 방어 메커니즘 설계 등 다양한 방어 기법이 연구되고 있으며, 안전한 학습 알고리즘, 다중 분류기 시스템, 적대적 훈련 등이 제시되었다.

적대적 기계 학습

적대적 기계 학습 개요

분야	기계 학습 및 컴퓨터 보안
설명	기계 학습 모델을 속이거나 회피하도록 설계된 적대적 공격에 대한 연구

적대적 공격 유형

적대적 예제	기계 학습 모델을 오분류하도록 설계된 입력
데이터 포이즈닝 공격	기계 학습 모델의 무결성을 손상시키는 것을 목표로 하는 악의적인 데이터 삽입
모델 추출 공격	합법적인 쿼리를 통해 기계 학습 모델의 민감한 정보를 도용하거나 복제
멤버십 추론 공격	기계 학습 모델이 특정 데이터 포인트를 학습하는 데 사용되었는지 확인
타이밍 공격	기계 학습 모델의 구현 세부 정보를 활용하여 민감한 정보 획득

적대적 방어 기술

적대적 훈련	적대적 예제를 사용하여 기계 학습 모델의 견고성을 향상
입력 검증	유효성 검사 기술을 사용하여 악의적인 입력을 탐지 및 완화
차등 개인 정보 보호	데이터에 노이즈를 추가하여 기계 학습 모델의 개인 정보 보호를 보장
모델 난독화	모델 아키텍처를 숨겨 공격자가 악용하기 어렵게 만듦

응용 분야

보안	스팸 필터 침입 탐지 시스템 멀웨어 분석
자율 시스템	자율 주행 차량 로봇 공학
의료	질병 진단 약물 발견
금융	사기 탐지 신용 평가

📚 더 읽어볼만한 페이지

기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
기계 학습 - 지도 학습
지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.
컴퓨터 보안 - 얼굴 인식 시스템
얼굴 인식 시스템은 디지털 이미지나 비디오에서 사람 얼굴을 감지하고 식별하는 기술로, 다양한 알고리즘 발전을 거쳐 보안, 신원 확인 등에 활용되지만, 편향성, 개인 정보 침해, 기술적 한계와 같은 윤리적 문제도 야기한다.
컴퓨터 보안 - 워터마크
워터마크는 종이 제조 시 두께 차이를 이용해 만들어지는 표식으로, 위조 방지를 위해 지폐나 여권 등에 사용되며 댄디 롤 등의 제작 기법을 통해 만들어지고 컴퓨터 프린터 인쇄 기술로도 활용된다.

1. 개요
2. 역사
3. 공격 유형
- 3.1. 분류 기준
- 3.2. 공격 전략
4. 특정 공격 유형
5. 방어 기법
- 5.1. 방어 메커니즘

2. 역사

2006년, 마르코 바레노 등은 "기계 학습은 안전할 수 있는가?"를 발표하며 광범위한 공격 분류 체계를 개략적으로 설명했다. 2007년경, 일부 스팸 발송자는 OCR 기반 필터를 무력화하기 위해 "이미지 스팸" 내의 단어를 모호하게 하기 위해 무작위 노이즈를 추가했다. 2013년까지 많은 연구자들은 비선형 분류기(예: 서포트 벡터 머신 및 신경망)가 적대자에 강건할 수 있기를 희망했지만, 2012년부터 바티스타 비지오 등이 이러한 기계 학습 모델에 대한 최초의 기울기 기반 공격을 시연했다.

2.1. 초기 연구

2004년 1월 MIT 스팸 컨퍼런스에서 존 그래엄-커밍은 기계 학습 스팸 필터가 스팸 이메일에 특정 단어를 추가하여 스팸이 아닌 것으로 분류되도록 학습시킴으로써, 다른 기계 학습 스팸 필터를 무력화할 수 있음을 보여주었다.

같은 해, 닐레시 달비 등은 선형 분류기가 스팸 필터에 사용될 때, 스팸 발송자가 "좋은 단어"를 스팸 이메일에 삽입하는 "회피 공격"으로 인해 무력화될 수 있다고 지적했다.

2.2. 딥러닝 시대의 발전

2012년, 심층 신경망이 컴퓨터 비전 분야에서 주도적인 기술로 부상하기 시작했다. 2014년, 크리스티안 세게디 등은 심층 신경망이 적대적 교란을 생성하는 기울기 기반 공격에 취약하여 쉽게 속을 수 있음을 증명했다.

2.3. 최근 동향

최근에는 적대적 공격이 노이즈의 효과를 상쇄하는 다양한 환경 제약으로 인해 실제 세계에서 생성하기 더 어렵다는 관찰 결과가 나왔다. 예를 들어, 적대적 이미지에 대한 작은 회전이나 약간의 조명 변화만으로도 적대성이 파괴될 수 있다. 또한, 구글 브레인의 니콜라스 프로스트와 같은 연구자들은 적대적 예제를 생성하는 것보다 표지판 자체를 물리적으로 제거하여 자율 주행 자동차가 정지 표지판을 놓치게 만드는 것이 훨씬 쉽다고 지적한다. 프로스트는 또한 적대적 기계 학습 커뮤니티가 특정 데이터 분포에서 훈련된 모델이 완전히 다른 데이터 분포에서도 잘 수행될 것이라고 잘못 가정한다고 믿는다. 그는 기계 학습에 대한 새로운 접근 방식을 탐구해야 하며, 현재 최첨단 접근 방식보다 인간의 인지력과 더 유사한 특성을 가진 독특한 신경망을 연구하고 있다고 제안한다.

적대적 기계 학습이 학계에 깊이 뿌리내리고 있는 반면, 구글, 마이크로소프트, IBM과 같은 대형 기술 회사들은 다른 사람들이 기계 학습 모델의 강건성을 구체적으로 평가하고 적대적 공격의 위험을 최소화할 수 있도록 문서와 오픈 소스 코드 베이스를 큐레이션하기 시작했다.

3. 공격 유형

적대적 기계 학습 공격은 공격 대상, 공격 방법, 공격 목표 등에 따라 다양하게 분류될 수 있다. 연구자들은 단 하나의 픽셀만 변경해도 딥 러닝 알고리즘을 속일 수 있음을 보여주었다.

다음은 적대적 기계 학습 공격의 예시이다.

* 스팸 필터링에서 "나쁜" 단어의 오타 또는 "좋은" 단어의 삽입을 통해 스팸 메시지를 의도적으로 변경하는 공격
* 컴퓨터 보안에서 네트워크 패킷 내의 악성 코드 난독화 또는 침입 탐지를 오도하기 위해 네트워크 흐름의 특성을 변경하는 공격
* 가짜 생체적 특징을 사용하여 합법적인 사용자를 사칭하거나 시간이 지남에 따라 업데이트된 특징에 적응하는 사용자의 템플릿 갤러리를 손상시킬 수 있는 생체 인식 공격

3D 프린팅을 통해 구글의 객체 감지 AI가 거북이를 어떤 각도에서 보든 소총으로 분류하도록 설계된 텍스처를 가진 장난감 거북이를 만든 사례도 있다. 이 거북이는 저렴한 상업용 3D 프린팅 기술로 만들 수 있었다.

개 이미지의 기계로 조작된 이미지가 컴퓨터와 인간 모두에게 고양이처럼 보이도록 표시된 연구 결과도 있으며, 2019년 연구에 따르면 인간은 기계가 적대적 이미지를 어떻게 분류할지 추측할 수 있다고 보고되었다. 또한, 연구자들은 자율 주행차가 이를 병합 또는 속도 제한 표지판으로 분류하도록 정지 표지판의 모양을 변경하는 방법을 발견했다.

McAfee는 테슬라의 전 Mobileye 시스템을 공격하여 속도 제한 표지판에 2인치 길이의 검은색 테이프를 추가하는 것만으로도 50mph 이상으로 달리도록 속인 사례도 보고했다.

안면 인식 시스템 또는 번호판 판독기를 속이도록 설계된 안경이나 의류의 적대적 패턴은 "스텔스 스트리트웨어"라는 틈새 시장을 만들기도 했다.

신경망에 대한 적대적 공격을 통해 공격자는 대상 시스템에 알고리즘을 주입할 수 있다. 연구자들은 무해해 보이는 오디오에서 지능형 비서에 대한 명령을 위장하기 위해 적대적 오디오 입력을 만들 수 있다는 것을 보여주었으며, 이와 관련된 문헌에서는 이러한 자극에 대한 인간의 인식을 탐구한다.

클러스터링 알고리즘은 보안 애플리케이션에 사용된다. 악성 코드 및 컴퓨터 바이러스 분석은 악성 코드 패밀리를 식별하고 특정 탐지 시그니처를 생성하는 것을 목표로 한다.

3.1. 분류 기준

감독 학습(supervised) 기계 학습 알고리즘에 대한 공격은 다음 세 가지 주요 축을 기준으로 분류할 수 있다.

* 분류기 영향: 공격은 분류 단계를 방해하여 분류기에 영향을 미칠 수 있다. 이는 취약점을 식별하기 위한 탐색 단계가 선행될 수 있다. 공격자의 능력은 데이터 조작 제약 조건의 존재에 의해 제한될 수 있다.
* 보안 침해: 공격은 합법적인 것으로 분류되는 악성 데이터를 제공할 수 있다. 훈련 중에 제공된 악성 데이터는 훈련 후 합법적인 데이터가 거부되도록 할 수 있다.
* 특수성: 표적 공격은 특정 침입/중단을 허용하려 시도한다. 또는 무차별 공격은 일반적인 혼란을 야기한다.

이 분류는 공격자의 목표, 공격 대상 시스템에 대한 지식, 입력 데이터/시스템 구성 요소를 조작하는 능력, 공격 전략에 대한 명시적인 가정을 허용하는 보다 포괄적인 위협 모델로 확장되었다. 또한, 적대적 공격에 대한 방어 전략에 대한 차원을 포함하도록 더 확장되었다.

3.2. 공격 전략

다음은 기계 학습 모델을 공격하는 몇 가지 일반적인 전략이다.

* 데이터 포이즈닝 (Data Poisoning): 훈련 데이터를 오염시켜 모델의 성능을 떨어뜨리거나 특정 결과를 유도하는 공격이다.
* 페이스북은 연간 약 70억 개의 가짜 계정을 삭제한다고 보고될 정도로, 가짜 계정의 만연은 포이즈닝에 많은 기회를 제공한다.
* 소셜 미디어에서는 허위 정보 캠페인이 추천 및 조정 알고리즘에 편향을 가하여 특정 콘텐츠를 다른 콘텐츠보다 더 많이 노출시키려고 시도한다.
* 백도어 공격은 데이터 포이즈닝의 특별한 경우로, 이미지, 소리, 비디오 또는 텍스트의 작은 결함과 같이 특정 트리거가 있는 입력에 대한 특정 동작을 가르치는 것을 목표로 한다.
* 데이터 포이즈닝 기술은 텍스트-이미지 모델에 적용되어 출력을 변경할 수 있으며, 예술가들이 저작권이 있는 작품이나 예술적 스타일을 모방으로부터 보호하는 데 사용될 수 있다.
* 데이터 포이즈닝은 모델이 합성 데이터로 훈련되는 모델 붕괴를 통해 의도치 않게 발생할 수도 있다.

* 비잔틴 공격 (Byzantine Attack): 연합 학습과 같이 여러 대의 컴퓨터에 의존하는 분산 학습 환경에서, 악의적인 참여자가 중앙 서버의 모델을 손상시키거나 특정 동작에 대한 알고리즘을 편향시키는 (예: 허위 정보 콘텐츠 추천 증폭) 공격이다.
* 단일 기계에서 훈련이 수행되면 해당 모델은 기계의 고장이나 공격에 매우 취약해지며, 해당 기계는 단일 실패 지점이 된다.
* 악의적인 (일명 비잔틴) 참여자 소수에 대해 (분산) 학습 알고리즘을 입증 가능하게 복원하는 현재 선도적인 솔루션은 강력한 그래디언트 집계 규칙에 기반한다.

* 회피 공격 (Evasion Attack): 이미 훈련된 모델의 불완전성을 악용하여 오분류를 유도하는 공격이다.
* 스팸 내용이 첨부된 이미지 내에 포함되어 스팸 방지 필터의 텍스트 분석을 회피하는 이미지 스팸이 회피의 명확한 예시이다.
* 회피 공격은 일반적으로 블랙 박스 공격과 화이트 박스 공격의 두 가지 범주로 나눌 수 있다.

* 모델 추출 (Model Extraction): 공격자가 블랙 박스 기계 학습 시스템을 조사하여 훈련된 데이터를 추출하는 공격이다.
* 이는 훈련 데이터 또는 모델 자체가 민감하고 기밀일 때 문제를 일으킬 수 있다.
* 극단적인 경우, 모델 추출은 모델을 완전히 재구성할 수 있을 만큼 충분한 양의 데이터를 모델에서 추출하는 것인 모델 탈취로 이어질 수 있다.
* 멤버십 추론은 목표 모델 추출 공격으로, 종종 잘못된 기계 학습 방식의 결과인 과적합을 활용하여 데이터 포인트의 소유자를 추론한다.

4. 특정 공격 유형

다음은 기계 학습 시스템을 공격하는 데 사용될 수 있는 다양한 적대적 공격 유형이다. 이러한 공격의 상당수는 딥 러닝 시스템뿐만 아니라 지지 벡터 머신(SVM) 및 선형 회귀와 같은 전통적인 기계 학습 모델에서도 작동한다.

* 적대적 예제: 사람에게는 "정상"으로 보이지만, 기계 학습 모델이 오분류하도록 설계된 특별히 조작된 입력값을 의미한다. 이러한 오분류를 유발하기 위해 특별히 설계된 "노이즈" 형태가 자주 사용된다. 다음은 문헌에서 현재 사용되는 적대적 예시 생성 기술의 일부이다.
* 경사 기반 회피 공격
* 빠른 경사 부호 방법(FGSM)
* 투영 경사 하강법(PGD)
* 칼리니-와그너(C&W) 공격
* 적대적 패치 공격
* 트로이 목마 공격 / 백도어 공격:
* 모델 역전:
* 멤버십 추론:

5. 방어 기법

연구자들은 기계 학습을 보호하기 위해 다음과 같은 다단계 접근 방식을 제안했다.

* 위협 모델링: 공격자의 목표와 능력을 대상 시스템과 관련하여 공식화한다.
* 공격 시뮬레이션: 공격자가 가능한 공격 전략에 따라 해결하려는 최적화 문제를 공식화한다.
* 공격 영향 평가
* 대응책 설계
* 잡음 감지: 회피 기반 공격의 경우에 해당한다.
* 정보 세탁: 모델 탈취 공격의 경우, 적대자에 의해 수신된 정보를 변경한다.

5.1. 방어 메커니즘

회피, 중독 및 프라이버시 공격에 대한 여러 방어 메커니즘이 제안되었으며, 다음과 같다.

* 안전한 학습 알고리즘
* 비잔틴 복원 알고리즘
* 다중 분류기 시스템
* AI가 작성한 알고리즘
* 훈련 환경을 탐색하는 AI (예: 이미지 인식에서 고정된 2D 이미지 세트를 수동적으로 스캔하는 대신 3D 환경을 적극적으로 탐색)
* 프라이버시 보존 학습
* 캐글 스타일 경쟁을 위한 래더 알고리즘
* 게임 이론 모델
* 훈련 데이터 정리
* 적대적 훈련
* 백도어 탐지 알고리즘
* 기울기 마스킹/난독화 기술: 적대자가 화이트 박스 공격에서 기울기를 악용하는 것을 방지. (단, 블랙 박스 공격에는 취약)
* 모델 앙상블 학습 (주의: 적대적 상황에는 적용되지 않을 수 있음)

기계 학습의 규모가 커짐에 따라, 연합 학습과 같이 여러 대의 컴퓨터에 의존하는 경우가 많아졌다. 엣지 장치는 일반적으로 그래디언트 또는 모델 매개변수를 중앙 서버와 주고받으며 협력한다. 그러나 이러한 장치 중 일부는 중앙 서버의 모델을 손상시키거나 특정 동작에 대한 알고리즘을 편향시키는 등(예: 허위 정보 콘텐츠 추천 증폭) 예상 동작에서 벗어날 수 있다. 단일 기계에서 훈련이 수행되면 해당 모델은 기계의 고장이나 공격에 매우 취약해진다. 해당 기계는 단일 실패 지점이 된다. 실제로 기계 소유자 자신이 탐지하기 어려운 백도어를 삽입할 수도 있다.

분산 학습 알고리즘을 악의적인 참여자(비잔틴)에 대해 복원하는 현재 선도적인 솔루션은 강력한 그래디언트 집계 규칙에 기반한다. 강력한 집계 규칙은 참여자 간의 데이터가 비-IID 분포를 가질 때 항상 작동하지는 않는다. 추천 알고리즘에 대한 서로 다른 소비 습관 또는 언어 모델에 대한 서로 다른 작성 스타일을 가진 사용자와 같은, 이질적인 정직한 참여자의 맥락에서, 모든 강력한 학습 알고리즘이 보장할 수 있는 것에 대한 증명 가능한 불가능성 정리가 존재한다.