DALL-E

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사 및 배경
3. 기술
4. 기능
5. 한계점
6. 윤리적 문제
7. 반응 및 평가
8. 오픈 소스 구현
- 8.1. Craiyon (DALL-E Mini)
참조

1. 개요

DALL-E는 2021년 OpenAI에서 공개한 이미지 생성 인공지능 모델이다. 2021년 DALL-E 출시 이후, 2022년에는 더 높은 해상도와 현실적인 이미지를 생성하는 DALL-E 2가, 2023년에는 더욱 발전된 DALL-E 3가 발표되었다. DALL-E는 텍스트 설명을 기반으로 다양한 스타일의 이미지를 생성하며, 객체 조작 및 재배치, 이미지 수정 등의 기능을 제공한다. DALL-E는 언어 이해의 한계, 알고리즘 편향, 딥페이크 악용 가능성, 기술적 실업, 군사적 이용 등과 같은 윤리적 문제와 한계점을 가지고 있다.

더 읽어볼만한 페이지

인공지능 예술 - 스테이블 디퓨전
스테이블 디퓨전은 텍스트나 이미지를 기반으로 새로운 이미지를 생성하거나 수정하는 인공지능 모델로, 변분 자동 인코더, U-Net, 텍스트 인코더로 구성되어 있으며 LAION-5B 데이터셋으로 학습되었으나 윤리적, 법적 논란이 있다.
인공지능 예술 - Midjourney
Midjourney는 텍스트나 이미지로 이미지를 생성하는 인공지능 프로그램이며, 디스코드 봇을 통해 접근 가능하고 다양한 분야에서 활용되지만, 딥페이크 생성 및 저작권 침해 등의 문제로 논란이 있다.
텍스트-이미지 생성 - 스테이블 디퓨전
스테이블 디퓨전은 텍스트나 이미지를 기반으로 새로운 이미지를 생성하거나 수정하는 인공지능 모델로, 변분 자동 인코더, U-Net, 텍스트 인코더로 구성되어 있으며 LAION-5B 데이터셋으로 학습되었으나 윤리적, 법적 논란이 있다.
텍스트-이미지 생성 - 딥페이크 포르노그래피
딥페이크 포르노그래피는 딥 러닝 기술로 인물의 얼굴이나 신체를 합성한 음란물로, 동의 없는 제작 및 유포는 초상권 침해, 명예훼손 등 심각한 인권 침해를 야기하여 법적 규제와 기술적 대응이 요구되는 사회적 문제이다.
GPT (언어 모델) - GPT-3
GPT-3는 OpenAI가 개발한 1,750억 개의 매개변수를 가진 대규모 언어 모델로, 텍스트 생성, 코드 작성, 질문 응답 등 다양한 작업을 수행할 수 있지만, 윤리적 문제점과 사회적 비판도 존재한다.
GPT (언어 모델) - GPT-2
GPT-2는 OpenAI가 개발한 GPT 모델의 확장 버전으로, 파라미터 수와 학습 데이터 세트 크기를 늘려 성능을 향상시켰으며 다양한 자연어 처리 작업에서 뛰어난 성능을 보이지만 악용 가능성에 대한 우려도 있다.

2. 역사 및 배경

DALL-E는 2021년 1월 5일 OpenAI의 블로그 게시물을 통해 공개되었으며, 이미지를 생성하기 위해 수정된 GPT-3 버전을 사용한다. DALL-E 모델은 GPT-3의 멀티모달 구현이며 120억 개의 파라미터를 가지고 있고, 인터넷에서 가져온 텍스트와 이미지 쌍으로 훈련되었다. DALL-E 2는 DALL-E보다 적은 35억 개의 파라미터를 사용한다.^[13]

DALL-E는 CLIP (Contrastive Language-Image Pre-training)과 함께 개발되었다. CLIP은 인터넷에서 스크래핑된 텍스트 캡션이 있는 4억 개의 이미지로 훈련된 기반의 분리 모델이다.^[14] 그 역할은 데이터 세트에서 무작위로 선택된 32,768개의 캡션 목록(그 중 하나가 정답)에서 어떤 캡션이 이미지에 가장 적합한지 예측함으로써 DALL-E의 출력을 "이해하고 순위를 매기는" 것이다. 이 모델은 DALL-E가 생성한 이미지의 큰 초기 목록을 필터링하여 가장 적합한 출력을 선택하는 데 사용된다.

DALL-E 2는 CLIP 이미지 임베딩을 조건으로 하는 확산 모델을 사용하며, 이는 추론 중에 이전 모델의 CLIP 텍스트 임베딩에서 생성된다.^[13]

2. 1. OpenAI와 초기 GPT 모델

OpenAI는 2018년에 변환기 아키텍처를 사용하여 최초의 GPT 모델을 개발했다. 2019년에는 GPT-1을 확장하여 GPT-2를 만들었고, 2020년에는 다시 규모를 확장하여 1,750억 개의 매개변수를 갖춘 GPT-3를 만들었다.

2. 2. DALL-E의 공개 (2021년)

OpenAI는 2021년 1월 5일 블로그 게시물을 통해 DALL-E를 공개했으며, 이미지를 생성하기 위해 수정된 GPT-3 버전을 사용한다고 설명했다. DALL-E라는 이름은 픽사의 애니메이션 로봇 캐릭터 WALL-E와 카탈루냐 초현실주의 예술가 살바도르 달리의 이름을 포트만토한 것이다.

2. 3. DALL-E 2의 발전 (2022년)

OpenAI는 2022년 4월 6일에 DALL-E의 후속 모델인 DALL-E 2를 발표했다. DALL-E 2는 "개념, 속성 및 스타일을 결합"하여 더 높은 해상도로 더 현실적인 이미지를 생성하도록 설계되었다.

2022년 7월 20일, DALL-E 2는 베타 단계에 진입하여 100만 명의 대기자 명단에 있는 사람들에게 초대장을 보냈다. 사용자들은 매달 일정 수의 이미지를 무료로 생성하고, 더 많은 이미지를 구매할 수 있었다. 이전에는 윤리 및 안전 문제에 대한 우려로 인해 연구 미리보기를 위해 사전 선정된 사용자에게만 접근이 제한되었다.

2022년 9월 28일, DALL-E 2는 모든 사람에게 공개되었고 대기자 명단 요구 사항이 제거되었다.

2. 4. DALL-E 3 및 API 출시 (2023년)

OpenAI는 2023년 9월에 이전 모델보다 "훨씬 더 많은 뉘앙스와 세부 사항"을 이해할 수 있는 최신 이미지 모델인 DALL-E 3를 발표했다. 2022년 11월 초에는 DALL-E 2를 API로 출시하여 개발자가 자체 응용 프로그램에 통합할 수 있도록 했다. 마이크로소프트는 빙 및 마이크로소프트 엣지에 포함된 Designer 앱 및 Image Creator 도구에서 DALL-E 2를 구현했다. API는 이미지 해상도에 따라 가격이 달라지는 이미지당 비용을 기준으로 작동하며, OpenAI의 엔터프라이즈 팀과 협력하는 회사에는 볼륨 할인이 제공된다.

2. 5. 이름의 유래

소프트웨어 이름은 애니메이션 로봇 픽사 캐릭터인 WALL-E와 카탈루냐 초현실주의 예술가 살바도르 달리의 이름을 포트만토한 것이다.

2. 6. C2PA 메타데이터 추가 (2024년)

2024년 2월, OpenAI는 DALL-E에서 생성된 이미지에 Content Authenticity Initiative에서 홍보하는 C2PA (Coalition for Content Provenance and Authenticity) 표준의 메타데이터를 포함하는 워터마크를 추가하기 시작했다.^[1]

3. 기술

DALL-E는 인터넷에서 가져온 텍스트-이미지 쌍으로 훈련된 120억 개의 매개변수를 가진 GPT-3의 다중 모드 구현으로, 텍스트를 픽셀로 교환하는 방식으로 작동한다.

DALL-E는 CLIP(Contrastive Language-Image Pre-training)과 함께 개발되어 대중에게 공개되었다. CLIP은 인터넷에서 스크랩한 텍스트 캡션이 있는 4억 개의 이미지로 훈련된 제로샷 학습 기반의 분리 모델이다.^[14] CLIP은 DALL-E의 출력을 "이해하고 순위를 매기는" 역할을 한다.

DALL-E 2는 이전 모델보다 적은 35억 개의 매개변수를 사용하며, 확산 모델을 사용한다.^[13]

3. 1. DALL-E

DALL-E는 VAE, GPT-3와 유사한 자기 회귀 디코더 전용 트랜스포머(120억 개의 매개변수), 이미지 인코더와 텍스트 인코더의 CLIP 쌍, 이렇게 세 가지 구성 요소로 이루어져 있다.

트랜스포머는 이미지 데이터를 직접 처리하지 않기 때문에, 이산 VAE를 통해 이미지를 토큰 시퀀스로 변환하고, 반대로 토큰 시퀀스를 다시 이미지로 변환할 수 있다.

트랜스포머 모델의 입력은 토큰화된 이미지 캡션 시퀀스와 토큰화된 이미지 패치이다. 이미지 캡션은 영어로, 바이트 쌍 인코딩으로 토큰화되며(어휘 크기 16384), 최대 256개의 토큰까지 가능하다. 각 이미지는 256×256 RGB 이미지이며, 각각 4×4 크기의 32×32 패치로 나뉜다. 각 패치는 이산 변분 자동 인코더에 의해 토큰으로 변환된다(어휘 크기 8192).

DALL-E는 CLIP (대비 언어-이미지 사전 훈련)과 함께 개발되어 대중에게 발표되었다. CLIP은 인터넷에서 웹 스크래핑된 4억 개의 이미지와 텍스트 캡션 쌍으로 훈련된 대비 학습 기반의 별도 모델이다. CLIP의 역할은 32,768개의 캡션 목록(그중 하나가 정답)에서 이미지에 가장 적합한 캡션을 예측하여 DALL-E의 출력을 "이해하고 순위를 매기는" 것이다.^[2]

훈련된 CLIP 쌍은 DALL-E에서 생성된 더 큰 초기 이미지 목록을 필터링하여 텍스트 프롬프트에 가장 가까운 이미지를 선택하는 데 사용된다.

3. 2. DALL-E 2

DALL-E 2는 이전 모델보다 적은 35억 개의 매개변수를 사용한다. DALL-E 2는 확산 모델을 사용하며, 추론 과정에서 사전 모델에 의해 CLIP 텍스트 임베딩으로부터 생성된 CLIP 이미지 임베딩을 기반으로 한다. 이는 몇 달 후에 출시된 스테이블 디퓨전과 동일한 아키텍처이다.

3. 3. CLIP (Contrastive Language-Image Pre-training)

DALL-E는 CLIP (Contrastive Language-Image Pre-training)과 함께 개발되어 대중에게 공개되었다.^[2] CLIP은 인터넷에서 스크랩한 텍스트 캡션이 포함된 4억 쌍의 이미지에 대해 훈련된 대비 학습 기반의 별도 모델이다. CLIP의 역할은 32,768개의 캡션 목록(그중 하나가 정답)에서 이미지에 가장 적합한 캡션을 예측하여 DALL-E의 출력을 "이해하고 순위를 매기는" 것이다.^[2]

훈련된 CLIP 쌍은 DALL-E에서 생성된 더 큰 초기 이미지 목록을 필터링하여 텍스트 프롬프트에 가장 가까운 이미지를 선택하는 데 사용된다.

4. 기능

DALL-E는 다양한 이미지 생성 및 편집 기능을 제공한다. 사실주의 이미지, 그림, 이모지 등 다양한 스타일의 이미지를 생성하고, 이미지 내 객체를 조작하거나 재배치할 수 있다. 특정 프롬프트 없이도 세부 사항을 추론하여 "빈칸을 채우는" 능력을 보여주며, 다양한 관점에서 설명을 기반으로 이미지를 생성 가능하다. 조지아 공과대학교 마크 리들 부교수는 DALL-E의 개념 융합 능력이 인간 창의성의 핵심 요소라고 설명했다. DALL-E는 레이븐 매트릭스를 풀 수 있을 정도로 시각적 추론 능력이 뛰어나다.

DALL-E 2는 기존 이미지를 바탕으로 "변형"을 생성하고, "인페인팅"과 "아웃페인팅"으로 이미지를 수정하거나 확장할 수 있다. DALL-E 3는 이전 모델보다 복잡한 프롬프트를 더 정확하게 따르고, 텍스트 생성 능력이 향상되었으며, 챗GPT Plus에 통합되었다.

4. 1. 다양한 스타일의 이미지 생성

DALL-E는 사실주의 이미지, 그림, 이모지 등 다양한 스타일의 이미지를 생성할 수 있다. 또한 이미지 내의 객체를 조작하고 재배치할 수 있으며, 명시적인 지시 없이도 새로운 구도에 디자인 요소를 정확하게 배치할 수 있다. ''BoingBoing''의 톰 던은 "예를 들어 무를 코를 풀고, 라떼를 마시거나, 외발자전거를 타는 그림을 그려달라고 요청하면 DALL-E는 종종 손수건, 손, 발을 그럴듯한 위치에 그린다"고 언급했다. DALL-E는 특정 프롬프트 없이도 적절한 세부 사항을 추론하여 "빈칸을 채우는" 능력을 보여주었는데, 예를 들어 축하와 관련된 프롬프트에 크리스마스 이미지를 추가하거나, 그림자에 대한 언급이 없더라도 적절한 위치에 그림자를 배치했다.

DALL-E는 다양한 관점에서 광범위한 임의의 설명에 대한 이미지를 생성할 수 있으며, 실패하는 경우는 드물다. 조지아 공과대학교 인터랙티브 컴퓨팅 스쿨의 마크 리들 부교수는 DALL-E가 개념을 융합할 수 있다는 것을 발견했는데, 이는 인간 창의성의 핵심 요소로 설명된다.

DALL-E의 시각적 추론 능력은 레이븐 매트릭스 (지능 측정을 위해 종종 사람에게 실시하는 시각 테스트)를 풀기에 충분하다.

DALL-E 3가 텍스트 프롬프트 "아보카도가 치료사 의자에 앉아 '안에 너무 공허해'라고 말하는 삽화, 가운데 씨앗 크기의 구멍이 있습니다. 치료사, 숟가락, 노트를 휘갈겨 적습니다"에 기반하여 생성한 정확한 텍스트 이미지

DALL-E 3는 이전 모델보다 더 정확하고 상세하게 복잡한 프롬프트를 따르며, 더 일관되고 정확한 텍스트를 생성할 수 있다. DALL-E 3는 ChatGPT Plus에 통합되어 있다. 사진과 같은 현실적인 이미지, 그림, 이모티콘 등 여러 스타일의 이미지를 생성할 수 있다. 이미지 내의 객체를 조작 및 재배치할 수 있으며, 명시적인 지시 없이 디자인 요소를 새로운 구성으로 올바르게 배치할 수 있다. 특정 프롬프트가 없어도 적절한 세부 사항을 추론하기 위해 "빈칸을 채우는" 능력을 보여주며, 예를 들어 일반적으로 축하와 관련된 프롬프트에 크리스마스 이미지를 추가하거나 이미지에 언급되지 않은 배치에 따라 그림자를 추가하기도 한다.

다양한 관점에서 다양한 임의의 설명을 바탕으로 이미지를 생성할 수 있지만,^[15], 대부분 실패하지 않는다. 조지아 공과대학교의 School of Interactive Computing 부교수인 Mark Riedl은 DALL-E가 개념(인간의 창의성의 중요한 요소로 설명됨)을 융합할 수 있다는 것을 발견했다.

레이븐 매트릭스 (인간의 지능을 측정하기 위해 자주 사용되는 시각적 테스트)를 해결할 수 있을 정도의 시각적 추론 능력을 가지고 있다.^[16]

기존의 이미지가 주어지면 DALL-E 2는 원본 이미지를 기반으로 개별 출력으로 이미지의 "변형"을 생성하고, 이미지를 편집하여 변경하거나 확장할 수 있다. DALL-E 2의 "inpainting"과 "outpainting"에서는 이미지의 컨텍스트를 사용하여 주어진 프롬프트에 따라 원본 이미지와 일치하는 매체를 사용하여 누락된 영역을 채운다. 이는 예를 들어 새로운 피사체를 이미지에 삽입하거나, 원본 경계를 넘어 이미지를 확장하기 위해 사용할 수 있다.^[17] OpenAI에 따르면, "Outpainting은 원본 이미지의 컨텍스트를 유지하기 위해 그림자, 반사, 텍스처 등 이미지의 기존 시각적 요소를 고려한다."^[18]

4. 2. 객체 조작 및 재배치

DALL-E는 이미지 내의 객체를 "조작하고 재배치"할 수 있으며, 명시적인 지시 없이도 새로운 구도에 디자인 요소를 정확하게 배치할 수 있다. ''BoingBoing''의 톰 던은 "예를 들어 무에게 코를 풀고, 라떼를 마시거나, 외발자전거를 타는 그림을 그려달라고 요청하면 DALL-E는 종종 손수건, 손, 발을 그럴듯한 위치에 그린다"고 언급했다. DALL-E는 특정 프롬프트 없이도 적절한 세부 사항을 추론하여 "빈칸을 채우는" 능력을 보여주었으며, 그림자에 대한 언급이 없더라도 적절한 위치에 그림자를 배치했다.

4. 3. 빈칸 채우기

DALL-E는 특정 프롬프트가 없어도 적절한 세부 사항을 추론하여 "빈칸을 채우는" 능력을 보여주었다. 예를 들어 축하와 관련된 프롬프트에는 크리스마스 이미지를 추가하고, 그림자에 대한 언급이 없더라도 적절한 위치에 그림자를 배치했다. 또한 DALL-E는 시각 및 디자인 트렌드에 대한 광범위한 이해를 보여준다.

4. 4. 다양한 관점

DALL-E는 다양한 관점에서 광범위한 임의의 설명에 대한 이미지를 생성할 수 있으며, 실패하는 경우는 드물다. 마크 리들 조지아 공과대학교 인터랙티브 컴퓨팅 스쿨 부교수는 DALL-E가 개념을 융합할 수 있다는 것을 발견했는데, 이는 인간 창의성의 핵심 요소로 설명된다.

DALL-E의 시각적 추론 능력은 레이븐 매트릭스 (지능 측정을 위해 종종 사람에게 실시하는 시각 테스트)를 풀기에 충분하다.

4. 5. 개념 융합

조지아 공과대학교 인터랙티브 컴퓨팅 스쿨의 마크 리들 부교수는 DALL-E가 개념을 융합할 수 있다는 것을 발견했는데, 이는 인간 창의성의 핵심 요소로 설명된다.

4. 6. 시각적 추론

DALL-E는 레이븐 매트릭스 (인간의 지능을 측정하기 위해 자주 실시하는 시각 테스트)를 해결할 수 있을 정도로 시각적 추론 능력이 뛰어나다.^[16]

4. 7. 텍스트 생성 (DALL-E 3)

DALL-E 3는 이전 모델보다 복잡한 프롬프트를 더 정확하고 상세하게 따르며, 더 일관되고 정확한 텍스트를 생성할 수 있다. DALL-E 3는 챗GPT Plus에 통합되어 있다.

4. 8. 이미지 수정 (DALL-E 2)

DALL-E 2는 기존 이미지를 바탕으로 이미지의 "변형"을 생성할 수 있을 뿐만 아니라, 이미지를 수정하거나 확장할 수 있다. DALL-E 2의 "인페인팅(inpainting)"과 "아웃페인팅(outpainting)"은 주어진 프롬프트에 따라 원본과 일치하는 예술 매체를 사용하여 누락된 영역을 채운다.

예를 들어, 이미지에 새로운 피사체를 삽입하거나 원래 경계를 넘어 이미지를 확장할 수 있다. OpenAI에 따르면 "아웃페인팅은 그림자, 반사, 질감을 포함하여 이미지의 기존 시각적 요소를 고려하여 원본 이미지의 컨텍스트를 유지한다."

5. 한계점

DALL-E 2는 언어 이해, 이미지 생성, 텍스트 처리, 과학 정보 처리 등에서 여러 한계를 보인다. 예를 들어, "노란 책과 빨간 꽃병"과 "빨간 책과 노란 꽃병"처럼 간단한 문장의 의미 차이를 혼동하거나, 여러 객체가 포함된 복잡한 문장을 제대로 이해하지 못하는 경우가 있다. 또한, 생성된 이미지 내 텍스트는 대부분 해독 불가능하며, 천문학이나 의료 영상과 같은 과학적 정보를 정확하게 표현하는 데에도 어려움이 있다.

프롬프트 "사람이 타누키를 가리키며 '이것은 타누키입니다!'라고 말하는 말풍선이 있는 그림"을 사용하여 일본어 텍스트를 생성하려는 시도. 결과적으로 텍스트는 엉뚱한 한자와 가나로 렌더링된다.

5. 1. 언어 이해

DALL-E 2는 언어 이해에 한계가 있다. 때때로 "노란 책과 빨간 꽃병"과 "빨간 책과 노란 꽃병", "판다가 라떼 아트를 만드는 것"과 "판다의 라떼 아트"를 구별하지 못한다.^[29] "말을 탄 우주비행사"라는 프롬프트를 제시하면 "우주비행사를 탄 말"의 이미지를 생성한다.^[30] 또한 다양한 상황에서 올바른 이미지를 생성하는 데 실패한다. 세 개 이상의 객체 요청, 부정, 숫자 및 접속사를 포함한 문장은 오류를 유발할 수 있으며, 객체 특징이 잘못된 객체에 나타날 수 있다.^[15] 추가적인 제한 사항으로는 텍스트 처리 (판독 가능한 글자에도 불구하고 거의 항상 꿈결 같은 횡설수설이 발생함)와 천문학이나 의료 영상과 같은 과학 정보를 처리하는 제한된 용량이 있다.^[31]

5. 2. 이미지 생성 오류

DALL-E 2는 언어를 이해하는 데 한계가 있다. 때때로 "노란 책과 빨간 꽃병"과 "빨간 책과 노란 꽃병"을 구별하지 못하거나, "판다가 라떼 아트를 만드는 것"과 "판다의 라떼 아트"를 구별하지 못한다. "말을 탄 우주비행사"라는 프롬프트를 제시하면 "우주비행사를 탄 말"의 이미지를 생성한다. 또한 다양한 상황에서 올바른 이미지를 생성하는 데 실패한다. 세 개 이상의 객체 요청, 부정, 숫자 및 연결된 문장은 오류를 유발할 수 있으며, 객체 특징이 잘못된 객체에 나타날 수 있다. 텍스트 처리(판독 가능한 글자에도 불구하고 거의 항상 꿈결 같은 횡설수설이 발생함)와 천문학이나 의료 영상과 같은 과학 정보를 처리하는 제한된 용량도 추가적인 제한 사항이다.

5. 3. 텍스트 처리

DALL-E 2는 언어 이해에 한계가 있다. 때때로 "노란 책과 빨간 꽃병"과 "빨간 책과 노란 꽃병"을 구별하지 못하거나, "판다가 라떼 아트를 만드는 것"과 "판다의 라떼 아트"를 구별하지 못한다. "말을 탄 우주비행사"라는 프롬프트를 제시하면 "우주비행사를 탄 말"의 이미지를 생성한다. 또한 다양한 상황에서 올바른 이미지를 생성하는 데 실패한다. 세 개 이상의 객체 요청, 부정, 숫자 및 연결된 문장은 오류를 유발할 수 있으며, 객체 특징이 잘못된 객체에 나타날 수 있다. 텍스트 처리(판독 가능한 글자에도 불구하고 거의 항상 꿈결 같은 횡설수설이 발생함)와 천문학이나 의료 영상과 같은 과학 정보를 처리하는 제한된 용량도 추가적인 제한 사항이다.

5. 4. 과학 정보 처리

DALL-E 2는 텍스트 처리 능력이 제한적이며, 천문학이나 의료 영상과 같은 과학 정보를 처리하는 데에도 용량 제한이 있다.^[31]

6. 윤리적 문제

DALL-E 2와 같은 이미지 생성 모델은 딥페이크 등 허위 정보 유포에 악용될 수 있다는 우려가 있다. 또한 예술가, 사진 작가, 그래픽 디자이너의 기술적 실업을 야기할 수 있다는 점도 문제로 지적된다. 2023년 마이크로소프트는 미국 국방부에 DALL-E 모델을 전장 관리 시스템 훈련에 사용하도록 제안했고,^[3] 2024년 1월 OpenAI는 사용 정책에서 군사 및 전쟁 관련 사용에 대한 포괄적 금지 조항을 삭제했다.^[4]

6. 1. 알고리즘 편향

DALL-E 2는 공개 데이터 세트를 사용하기 때문에 결과에 영향을 미쳐 알고리즘적 편향을 초래할 수 있다. 예를 들어, 성별을 குறிப்பிட지 않은 요청에 대해 여성보다 남성 이미지를 더 많이 생성하는 경우가 있다.^[19]

훈련 데이터는 폭력적이거나 성적인 이미지를 제거하도록 필터링되었지만, 이로 인해 여성 이미지 생성 빈도가 줄어드는 등 편향이 오히려 증가하는 것으로 나타났다.^[20] OpenAI는 훈련 데이터에서 여성이 성적으로 묘사될 가능성이 더 높았기 때문에 필터가 결과에 영향을 미쳤을 수 있다고 추측한다.^[20]

2022년 9월, OpenAI는 더 버지에 DALL-E가 결과의 편향을 해결하기 위해 사용자 프롬프트에 "흑인 남성" 및 "아시아 여성"과 같은 문구를 눈에 띄지 않게 삽입한다고 확인했다. 이는 성별이나 인종을 지정하지 않은 프롬프트에 적용된다.^[21]

6. 2. 딥페이크 및 허위 정보

DALL-E 2와 같은 이미지 생성 모델은 딥페이크를 비롯한 여러 형태의 허위 정보를 퍼뜨리는 데 악용될 수 있다는 우려가 제기되고 있다.^[22]^[23] 이를 막기 위해 DALL-E 2는 공인의 얼굴이나 사람의 얼굴이 포함된 이미지 업로드를 거부한다.^[24] 잠재적으로 불쾌감을 유발할 수 있는 내용이 담긴 프롬프트는 차단되며, 업로드된 이미지는 불쾌한 자료를 감지하기 위해 분석된다.^[26]

하지만 프롬프트 기반 필터링은 쉽게 우회될 수 있다는 단점이 있다. 예를 들어 "피"라는 단어는 필터링되지만, "케첩"이나 "빨간 액체"와 같이 유사한 의미를 가진 다른 단어들은 필터링되지 않는다.^[25]^[26]

6. 3. 기술적 실업

DALL-E 2와 같은 이미지 생성 모델들은 그 정확성과 인기로 인해 예술가, 사진 작가, 그래픽 디자이너들의 기술적 실업을 야기할 수 있다는 우려가 있다. DALL-E 3는 사용자가 현재 활동 중인 예술가의 스타일로 작품을 생성하는 것을 막도록 설계되었다.

6. 4. 군사적 이용

2023년, 마이크로소프트는 미국 국방부에 DALL-E 모델을 전장 관리 시스템 훈련에 사용하는 것을 제안했다.^[3] 2024년 1월, OpenAI는 사용 정책에서 군사 및 전쟁 관련 사용에 대한 포괄적인 금지 조항을 삭제했다.^[4]

AI의 군사적 이용에 대한 국제적 논의가 필요하며, AI 무기 개발 경쟁 심화와 윤리적 문제에 대한 우려가 제기되고 있다. (더불어민주당 관점)

7. 반응 및 평가

DALL-E는 공개 이후 다양한 반응과 평가를 받았다. 긍정적인 평가는 주로 DALL-E의 독창성과 기술력을 중심으로 이루어졌으며, 마이크로소프트 등으로부터 투자 유치에도 성공했다. 반면 일본 애니메이션 커뮤니티에서는 AI 생성 이미지의 예술성 및 저작권법 문제에 대한 비판적인 시각이 존재한다. 또한 DALL-E 3의 과도한 콘텐츠 필터링은 표현의 자유를 제한한다는 논란을 야기했다.

7. 1. 긍정적 평가

DALL-E에 대한 대부분의 보도는 "초현실적" 또는 "기발한" 출력을 다룬다. DALL-E가 "강아지를 데리고 산책하는 튜튜를 입은 아기 무의 삽화"에 대해 출력한 결과는 ''Input'', NBC, ''네이처'' 및 기타 간행물에서 언급되었다. "아보카도 모양의 안락의자"에 대한 출력도 널리 보도되었다.

''익스트림테크''는 "DALL-E에게 특정 시대의 전화기나 진공청소기 사진을 요청할 수 있으며, 해당 객체가 어떻게 변했는지 이해한다"고 언급했다. ''엔가젯'' 또한 전화기 및 기타 객체가 시간에 따라 변화하는 방식을 이해하는 특이한 능력을 언급했다.

''MIT 테크놀로지 리뷰''에 따르면, OpenAI의 목표 중 하나는 "언어 모델이 인간이 사물을 이해하는 데 사용하는 일상적인 개념을 더 잘 이해하도록 하는 것"이었다고 한다.

7. 2. 투자 및 자금 유치

월가 투자자들은 DALL-E 2에 긍정적인 반응을 보였으며, 일부 기업들은 이것이 향후 수조 달러 규모의 산업 전환점이 될 수 있다고 생각했다. 2019년 중반까지 OpenAI는 마이크로소프트와 코슬라 벤처스로부터 10억달러 이상의 자금을 유치했으며, 2023년 1월에는 DALL-E 2와 ChatGPT 출시 이후 마이크로소프트로부터 100억달러를 추가로 유치했다.

7. 3. 부정적 평가 (일본 애니메이션 커뮤니티)

일본 애니메이션 커뮤니티는 DALL-E 2 및 유사한 모델에 대해 부정적인 반응을 보였다. 예술가들은 AI 아트가 의도를 가진 인간이 만든 것이 아니므로 예술이 아니라고 주장한다. AI가 생성한 이미지는 인간의 예술 작품에 들어가는 시간과 기술을 훼손하며, AI는 웹에서 스크랩된 인간이 만든 예술 작품을 기반으로 훈련되기 때문에 더욱 그렇다.

또한, AI 학습에 사용되는 데이터와 관련된 저작권법 문제도 제기된다. OpenAI는 DALL-E 2 훈련에 사용된 데이터 세트 정보를 공개하지 않아, 일부 예술가들은 자신의 작품이 허가 없이 사용되었을 수 있다고 우려한다. 이러한 저작권 문제는 현재 불확실한 상황이다.

7. 4. 과도한 콘텐츠 필터링 (DALL-E 3)

마이크로소프트와 OpenAI는 DALL-E 3를 빙챗과 ChatGPT에 통합한 후, 과도한 콘텐츠 필터링으로 인해 비판을 받았다. 비평가들은 DALL-E가 "로보토미"되었다고 말했다. "망치가 서버 랙을 부수는 남자"와 같은 평범한 프롬프트에도 필터링이 작동하여 이미지가 생성되지 않는 경우가 있었다.

출시 초기에는 필터링이 더욱 강화되어, 빙 자체에서 제안된 프롬프트로 생성된 이미지까지 차단되기도 했다.

''테크레이더''는 이러한 지나치게 신중한 접근 방식이 DALL-E를 창의적인 도구로 활용하는 데 제한을 가할 수 있다고 지적했다.

8. 오픈 소스 구현

OpenAI가 DALL-E의 소스 코드를 공개하지 않았기 때문에, 이와 비슷한 기능을 가진 오픈 소스 모델을 만들려는 여러 시도가 있었다.

8. 1. Craiyon (DALL-E Mini)

OpenAI가 세 모델 중 어느 것도 소스 코드를 공개하지 않았기 때문에, 유사한 기능을 제공하는 오픈 소스 모델을 만들려는 시도가 여러 차례 있었다. 2022년 Hugging Face의 Spaces 플랫폼에 출시된 Craiyon(2022년 6월 OpenAI의 이름 변경 요청 전에는 DALL-E Mini였음)은 인터넷의 필터링되지 않은 데이터를 기반으로 훈련된 원래 DALL-E를 기반으로 하는 AI 모델이다. 이는 출시 후 유머러스한 이미지를 생성하는 능력으로 인해 2022년 중반에 상당한 미디어의 주목을 받았다.

참조

_[1] 웹사이트 AI Images Generated on DALL-E Now Contain the Content Authenticity Tag https://petapixel.co[...] 2024-04-04
_[2] 간행물 Learning Transferable Visual Models From Natural Language Supervision https://proceedings.[...] PMLR 2021-07-01
_[3] 뉴스 Microsoft Pitched OpenAI's DALL-E as Battlefield Tool for U.S. Military https://theintercept[...] 2024-04-10
_[4] 뉴스 OpenAI Quietly Deletes Ban on Using ChatGPT for "Military and Warfare" https://theintercept[...] 2024-01-12
_[5] 웹사이트 DALL·E 2 https://openai.com/d[...] 2022-07-06
_[6] 웹사이트 DALL·E Now Available in Beta https://openai.com/b[...] 2022-07-20
_[7] 뉴스 Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage https://www.npr.org/[...] 2022-07-20
_[8] 웹사이트 DALL·E Waitlist https://labs.openai.[...] 2022-07-06
_[9] 웹사이트 From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art https://www.theguard[...] 2022-07-06
_[10] 웹사이트 DALL·E Now Available Without Waitlist https://openai.com/b[...] 2022-10-05
_[11] 웹사이트 DALL·E API Now Available in Public Beta https://openai.com/b[...] 2022-11-19
_[12] 뉴스 Now anyone can build apps that use DALL-E 2 to generate images https://techcrunch.c[...] 2022-11-19
_[13] 논문 Hierarchical Text-Conditional Image Generation with CLIP Latents 2022-04-12
_[14] 웹사이트 'DALL-E' AI generates an image out of anything you describe https://www.engadget[...] 2022-07-18
_[15] 논문 A very preliminary analysis of DALL-E 2 2022-05-02
_[16] 웹사이트 DALL·E: Creating Images from Text https://openai.com/b[...] 2022-08-13
_[17] 웹사이트 New OpenAI tool draws anything, bigger and better than ever https://techcrunch.c[...] 2022-11-26
_[18] 웹사이트 DALL·E: Introducing Outpainting https://openai.com/b[...] 2022-11-26
_[19] 웹사이트 DALL-E 2's Failures Are the Most Interesting Thing About It https://spectrum.iee[...] 2022-07-15
_[20] 웹사이트 DALL·E 2 Pre-Training Mitigations https://openai.com/b[...] 2022-07-18
_[21] 웹사이트 OpenAI's image generator DALL-E is available for anyone to use immediately https://www.theverge[...] 2023-03-22
_[22] 뉴스 From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art https://www.theguard[...] 2022-08-02
_[23] 잡지 When AI Makes Art, Humans Supply the Creative Spark https://www.wired.co[...] 2022-08-02
_[24] 뉴스 DALL-E Is Now Generating Realistic Faces of Fake People https://www.vice.com[...] 2022-08-02
_[25] 잡지 DALL-E, Make Me Another Picasso, Please https://www.newyorke[...] 2022-08-02
_[26] 웹사이트 DALL·E 2 Preview - Risks and Limitations https://github.com/o[...] 2022-08-02
_[27] 웹사이트 OpenAI: Will DALLE-2 kill creative careers? https://venturebeat.[...] 2023-03-22
_[28] 웹사이트 DALL-E 2: A dream tool and an existential threat to visual artists https://newatlas.com[...] 2023-03-22
_[29] 논문 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding 2022-05-23
_[30] 웹사이트 Horse rides astronaut https://garymarcus.s[...] 2022-06-18
_[31] 웹사이트 DALL-E 2's Failures Are the Most Interesting Thing About It https://spectrum.iee[...] 2022-08-16
_[32] 웹인용 OpenAI debuts DALL-E for generating images from text https://venturebeat.[...] VentureBeat 2021-01-05
_[33] 웹인용 DALL·E 2 https://openai.com/d[...] 2022-07-06
_[34] 웹인용 DALL·E Now Available in Beta https://openai.com/b[...] 2022-07-20
_[35] 뉴스 Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage https://www.npr.org/[...] 2022-07-20
_[36] 웹인용 DALL·E Waitlist https://labs.openai.[...] 2022-07-06
_[37] 웹인용 From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art https://www.theguard[...] 2022-07-06
_[38] 웹인용 How DALL-E 2 could solve major computer vision challenges https://venturebeat.[...] 2022-04-16
_[39] 잡지 Inside DALL-E Mini, the Internet's Favorite AI Meme Machine https://www.wired.co[...] 2022-07-06
_[40] 웹인용 Midjourney https://www.midjourn[...] 2022-07-20
_[41] 웹인용 OpenAI's DALL-E creates plausible images of literally anything you ask it to https://techcrunch.c[...] 2021-01-05

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

DALL-E - [IT 관련 정보]에 관한 문서
개요
DALL-E 이미지에 표시되는 워터마크
'텍스트 프롬프트 "1990년대 기술로 물속에서 새로운 AI 연구를 하고 있는 테디 베어"를 기반으로 DALL-E 2에서 생성된 이미지'
종류	텍스트-이미지 모델
개발사	OpenAI
최초 출시일	2021년 1월 5일
최신 버전	DALL-E 3
최신 버전 출시일	2023년 8월 10일
웹사이트	https://openai.com/blog/dall-e/