StyleGAN

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

StyleGAN은 2018년 엔비디아 연구진에 의해 소개된, 가짜 인간 얼굴을 생성하는 데 특화된 생성적 적대 신경망(GAN)이다. StyleGAN은 2017년에 발표된 Progressive GAN을 기반으로 하며, 신경 스타일 전송 기술을 결합하여 이미지의 스타일을 제어할 수 있도록 설계되었다. StyleGAN은 This Person Does Not Exist 웹사이트에 사용되어 가짜 얼굴을 생성하는 데 활용되었으며, StyleGAN2 (2020)와 StyleGAN3 (2021)로 발전하며 이미지 품질과 생성 방식이 개선되었다. StyleGAN은 딥페이크 기술의 발전과 윤리적 문제와 연관되어 논의되고 있다.

StyleGAN

주요 정보

이미지 준비중입니다.

StyleGAN2-ADA 아키텍처

유형	생성적 적대 신경망
설계	텐서플로, 파이토치
고안자	엔비디아
첫 출시	2018년 12월
라이선스	Creative Commons Attribution-NonCommercial 4.0 International
웹사이트	StyleGAN2-ADA GitHub 저장소

설명

설명	StyleGAN은 엔비디아에서 개발한 생성적 적대 신경망 (GAN) 아키텍처이다. 2018년 말에 처음 발표되었다.

📚 더 읽어볼만한 페이지

딥 러닝 응용 소프트웨어 - 스테이블 디퓨전
딥 러닝 응용 소프트웨어 - 알파폴드
알파폴드는 딥마인드에서 개발한 단백질 구조 예측 인공지능 시스템으로, 아미노산 서열로부터 3차원 구조를 예측하며 높은 정확도로 신약 개발과 질병 연구에 기여할 가능성이 있지만, 단백질 복합체 및 무질서 단백질 영역 예측에는 한계가 있다.
가상 현실 - 고글
고글은 눈을 보호하는 장비로, 이누이트와 유픽족의 스노우 고글에서 시작하여 자동차, 항공기 발달과 함께 필수품이 되었고, 현재는 다양한 용도와 패션 아이템으로 활용된다.
가상 현실 - 플레이스테이션 VR
컴퓨터 그래픽스 - 딥페이크
딥페이크는 인공지능 기술을 활용하여 영상이나 이미지를 조작, 합성하여 실제와 구별하기 어렵게 만드는 기술이며, 가짜 뉴스, 명예훼손, 신원 위장 등 다양한 문제점을 야기한다.
컴퓨터 그래픽스 - 엔비디아
엔비디아는 1993년 설립된 미국의 반도체 회사로, GeForce 256을 통해 GPU라는 용어를 대중화하고 딥러닝 기술 발전에 힘입어 인공지능 및 자율주행 분야에서 시장을 선도하며 성장하여 2024년 6월에는 시가총액 세계 1위 기업에 올랐다.

1. 개요
2. 역사
3. 아키텍처
4. 한국 사회에 미치는 영향

2. 역사

StyleGAN 계열의 직접적인 전신은 2017년에 발표된 프로그레시브 GAN이다.

2018년 12월, 엔비디아 연구원들은 가짜 인간 얼굴의 무제한적인 초상화를 생성하기 위한 GAN인 StyleGAN을 소개하는 소프트웨어와 함께 사전 인쇄본을 배포했다. StyleGAN은 엔비디아의 일반 GPU 프로세서에서 실행될 수 있었다.

2019년 2월, 우버 엔지니어 필립 왕(Phillip Wang)은 이 소프트웨어를 사용하여 This Person Does Not Exist 웹사이트를 만들었으며, 이 웹사이트는 웹 페이지를 새로 고칠 때마다 새로운 얼굴을 표시했다.

2019년 9월, Generated Photos라는 웹사이트는 10만 개의 이미지를 스톡 사진 컬렉션으로 게시했다. 이 컬렉션은 유사한 조명과 각도로 제어된 환경에서 촬영된 개인 데이터 세트를 사용하여 제작되었다.

마찬가지로, 워싱턴 대학교 정보대학의 두 교수는 StyleGAN을 사용하여 Which Face is Real?을 만들었으며, 방문객들에게 가짜 얼굴과 진짜 얼굴을 나란히 놓고 구별하도록 했다.

StyleGAN의 두 번째 버전인 StyleGAN2는 2020년 2월 5일에 발표되었다. 이 버전은 일부 특징적인 인공물을 제거하고 이미지 품질을 개선했다.

2021년에는 세 번째 버전이 출시되어 생성기에서 세부 사항 간의 일관성을 개선했다. "별칭이 없는" 이 버전은 pytorch로 구현되었다.

2.1. 프로그레시브 GAN (2017)

StyleGAN 계열의 직접적인 전신은 2017년에 발표된 프로그레시브 GAN이다.

2.2. StyleGAN (2018)

StyleGAN 계열의 직접적인 전신은 2017년에 발표된 프로그레시브 GAN이다.

2018년 12월, 엔비디아 연구원들은 가짜 인간 얼굴의 무제한적인 (종종 설득력 있는) 초상화를 생성하기 위한 GAN인 StyleGAN을 소개하는 소프트웨어와 함께 사전 인쇄본을 배포했다. StyleGAN은 엔비디아의 일반 GPU 프로세서에서 실행될 수 있었다.

2019년 2월, 우버 엔지니어 필립 왕(Phillip Wang)은 이 소프트웨어를 사용하여 웹사이트 This Person Does Not Exist를 만들었으며, 이 웹사이트는 웹 페이지를 새로 고칠 때마다 새로운 얼굴을 표시했다. 왕은 인간이 인간의 얼굴을 특별히 이해하도록 진화했음에도 불구하고 StyleGAN이 경쟁적으로 "모든 관련 특징(인간 얼굴)을 분해하여 일관된 방식으로 재구성할 수 있다"는 사실에 놀라움을 표했다.

2019년 9월, Generated Photos라는 웹사이트는 10만 개의 이미지를 스톡 사진 컬렉션으로 게시했다. 이 컬렉션은 유사한 조명과 각도로 제어된 환경에서 촬영된 개인 데이터 세트를 사용하여 제작되었다.

마찬가지로, 워싱턴 대학교 정보대학의 두 교수는 StyleGAN을 사용하여 Which Face is Real?을 만들었으며, 방문객들에게 가짜 얼굴과 진짜 얼굴을 나란히 놓고 구별하도록 했다. 이 교수는 "궁극적으로 대부분의 사람들이 이미지를 포토샵할 수 있다는 것을 알게 된 것처럼" 이 기술의 존재에 대해 대중을 교육하여 경계심을 갖도록 하려는 의도라고 밝혔다.

2.3. This Person Does Not Exist (2019)

2019년 2월, 우버 엔지니어 필립 왕(Phillip Wang)은 StyleGAN 소프트웨어를 사용하여 This Person Does Not Exist라는 웹사이트를 만들었다. 이 웹사이트는 웹 페이지를 새로 고칠 때마다 새로운 얼굴을 표시했다. 왕은 인간이 인간의 얼굴을 특별히 잘 이해하도록 진화했음에도 불구하고, StyleGAN이 경쟁적으로 "모든 관련 특징(인간 얼굴)을 분해하여 일관된 방식으로 재구성할 수 있다"는 사실에 놀라움을 표했다.

워싱턴 대학교 정보대학의 두 교수도 StyleGAN을 사용하여 Which Face is Real?을 만들었다. 이 웹사이트는 방문객들에게 가짜 얼굴과 진짜 얼굴을 나란히 놓고 구별하도록 했다. 이들은 "궁극적으로 대부분의 사람들이 이미지를 포토샵할 수 있다는 것을 알게 된 것처럼" 이 기술의 존재에 대해 대중을 교육하여 경계심을 갖도록 하려는 의도라고 밝혔다.

2.4. StyleGAN2 (2020)

StyleGAN2는 StyleGAN의 두 번째 버전으로, 2020년 2월 5일에 발표되었다. 이 버전은 기존 StyleGAN의 일부 특징적인 인공물을 제거하고 이미지 품질을 개선했다.

2.5. StyleGAN3 (2021)

2021년, 세 번째 버전이 출시되어 생성기에서 세부 사항 간의 일관성을 개선했다. "별칭이 없는" 이 버전은 파이토치로 구현되었다.

2.6. 부정적 사용

페이스북은 2019년 12월 허위 신분을 가진 계정 네트워크를 삭제했으며, 그중 일부는 기계 학습 기술로 생성된 프로필 사진을 사용했다고 언급했다.

3. 아키텍처

StyleGAN은 신경 스타일 전송과 점진적 GAN의 조합으로 설계되었다.

StyleGAN-1의 핵심 구조는 점진적 GAN과 유사하게 점진적 성장 방식을 따른다. 생성된 각 이미지는 상수 4x4x512 배열로 시작하여 스타일 블록을 반복적으로 거친다. 각 스타일 블록은 신경 스타일 전송이 Gramian 행렬을 사용하는 방식과 유사하게 아핀 변환("적응형 인스턴스 정규화")을 통해 "스타일 잠재 벡터"를 적용한다. 그 후 노이즈를 추가하고 정규화(평균을 빼고 분산으로 나눔)한다.

훈련 시에는 보통 이미지당 하나의 스타일 잠재 벡터만 사용되지만, 때로는 두 개("혼합 정규화")를 사용하여 각 스타일 블록이 다른 스타일 블록의 도움 없이 독립적으로 스타일을 지정하도록 한다. 훈련 후에는 여러 스타일 잠재 벡터를 각 스타일 블록에 공급할 수 있는데, 하위 계층에 공급되는 것은 대규모 스타일을 제어하고, 상위 계층에 공급되는 것은 세밀한 스타일을 제어한다.

두 이미지 $x, x'$ 간의 스타일 혼합도 가능하다. 먼저, $G(z)\approx x, G(z')\approx x'$ 가 되도록 경사 하강을 실행하여 $z, z'$ 을 찾는다. 이를 "이미지를 스타일 잠재 공간으로 투영"이라고 한다. 그런 다음, $z$ 는 하위 스타일 블록에, $z'$ 는 상위 스타일 블록에 공급하여 $x$ 의 대규모 스타일과 $x'$ 의 세밀한 스타일을 갖는 합성 이미지를 생성할 수 있다.

3.1. 프로그레시브 GAN

프로그레시브 GAN()은 GAN의 생성기를 피라미드 방식으로 작은 규모에서 큰 규모로 성장시켜 대규모 이미지 생성을 안정적으로 훈련시키는 방법이다. SinGAN과 마찬가지로 생성기를 $G = G_1 \circ G_2 \circ \cdots \circ G_N$ 으로, 판별기를 $D = D_N \circ D_{N-1} \circ \cdots \circ D_1$ 로 분해한다.

훈련 과정에서 처음에는 GAN 게임에서 $G_N, D_N$ 만 사용하여 4x4 이미지를 생성한다. 그런 다음 $G_{N-1}, D_{N-1}$ 을 추가하여 GAN 게임의 두 번째 단계에 도달하여 8x8 이미지를 생성하고, 1024x1024 이미지를 생성하는 GAN 게임에 도달할 때까지 반복한다.

GAN 게임의 단계 간 불연속성을 방지하기 위해 각 새로운 레이어는 "혼합"된다(). 예를 들어, 두 번째 단계 GAN 게임은 다음과 같이 시작된다.

* 바로 전, GAN 게임은 4x4 이미지를 생성하고 판별하는 쌍 $G_N, D_N$ 으로 구성된다.
* 바로 후, GAN 게임은 8x8 이미지를 생성하고 판별하는 쌍 $((1-\alpha) + \alpha\cdot G_{N-1})\circ u \circ G_N, D_N \circ d \circ ((1-\alpha) + \alpha\cdot D_{N-1})$ 로 구성된다. 여기서 함수 $u, d$ 는 이미지 업샘플링 및 다운샘플링 함수이고, $\alpha$ 는 0에서 1로 부드럽게 미끄러지는 혼합 인자(이미지 구성에서 알파와 유사)이다.

3.2. StyleGAN

StyleGAN은 신경 스타일 전송과 점진적 GAN의 조합으로 설계되었다.

StyleGAN-1의 핵심 아키텍처 선택은 점진적 GAN과 유사한 점진적 성장 메커니즘이다. 각 생성된 이미지는 상수 4x4x512 배열로 시작하여 스타일 블록을 반복적으로 통과한다. 각 스타일 블록은 신경 스타일 전송이 Gramian 행렬을 사용하는 방식과 유사하게 아핀 변환("적응형 인스턴스 정규화")을 통해 "스타일 잠재 벡터"를 적용한다. 그런 다음 노이즈를 추가하고 정규화(평균을 빼고 분산으로 나눔)한다.

훈련 시에는 일반적으로 이미지당 하나의 스타일 잠재 벡터만 사용되지만, 때로는 두 개("혼합 정규화")를 사용하여 각 스타일 블록이 다른 스타일 블록의 도움 없이 독립적으로 스타일 지정을 수행하도록 장려한다(다른 스타일 블록은 완전히 다른 스타일 잠재 벡터를 받을 수 있기 때문).

훈련 후, 여러 스타일 잠재 벡터를 각 스타일 블록에 공급할 수 있다. 하위 계층에 공급되는 것은 대규모 스타일을 제어하고, 상위 계층에 공급되는 것은 세밀한 스타일을 제어한다.

두 이미지 $x, x'$ 간의 스타일 혼합도 수행할 수 있다. 먼저, $G(z)\approx x, G(z')\approx x'$ 가 되도록 경사 하강을 실행하여 $z, z'$ 을 찾는다. 이를 "이미지를 스타일 잠재 공간으로 투영"이라고 한다. 그런 다음, $z$ 는 하위 스타일 블록에, $z'$ 는 상위 스타일 블록에 공급하여 $x$ 의 대규모 스타일과 $x'$ 의 세밀한 스타일을 갖는 합성 이미지를 생성할 수 있다. 여러 이미지를 이런 방식으로 구성할 수도 있다.

3.3. StyleGAN2

StyleGAN2는 StyleGAN을 다음과 같은 두 가지 측면에서 개선했다.

첫째, 스타일 잠재 벡터를 적용하여 컨볼루션 레이어의 가중치를 변환함으로써 "블롭" 문제를 해결했다. "블롭" 문제는 스타일 잠재 벡터를 사용하여 생성된 이미지를 정규화할 때 유용한 정보가 손실되기 때문에 발생한다. 결과적으로 생성기는 정규화 효과의 대부분을 흡수하는 큰 블롭으로 "주의를 분산"시키는 방법을 학습했다. (이는 마치 열 추적 미사일을 분산시키기 위해 플레어를 사용하는 것과 다소 유사하다.)

둘째, 잔차 연결을 사용하여 특정 특징이 픽셀 간격에 갇히는 현상을 방지했다. 예를 들어, 두 개의 치아 사이의 경계선은 32로 나누어지는 픽셀에 갇힐 수 있다. 생성기가 N-5 단계에서 치아를 생성하도록 학습되었다면, 해당 단계에서는 원시적인 치아만 생성할 수 있고 5번 확대되기 전이므로 32 간격으로 나타나게 된다.

이는 가역적 데이터 증강을 사용하는 StyleGAN2-ADA("ADA"는 "적응형"을 의미)에 의해 업데이트되었다. 또한 0에서 시작하여 "과적합 휴리스틱"이 목표 수준에 도달할 때까지 점진적으로 데이터 증강의 양을 조정하여 "적응형"이라는 이름이 붙었다.

3.4. StyleGAN3

StyleGAN3는 공식 영상에서 확인할 수 있는 "텍스처 스티킹" 문제를 해결하여 StyleGAN2를 개선했다. 이 문제를 나이퀴스트-섀넌 샘플링 정리를 통해 분석했으며, 생성기의 레이어들이 픽셀에 작용할 때 고주파 신호를 활용하도록 학습한다고 주장했다.

이를 해결하기 위해 각 생성기 레이어 사이에 엄격한 저역 통과 필터를 적용하여, 생성기가 픽셀을 단순히 개별 신호가 아닌, 픽셀이 나타내는 연속적인 신호에 충실한 표현 방식으로 작동하도록 강제했다. 또한 더 많은 신호 필터를 사용하여 회전 및 이동 불변성을 부과했다. 그 결과 StyleGAN-3는 텍스처 스티킹 없이 부드럽게 회전하고 이동하는 이미지를 생성할 수 있게 되었다.

4. 한국 사회에 미치는 영향

(이전 출력이 없으므로, 원본 소스가 제공되면 StyleGAN이 한국 사회에 미치는 영향에 대한 섹션을 작성하고, 주어진 지침에 따라 검토 및 수정하여 출력하겠습니다.)