오픈AI 코덱스

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 기능
- 2.1. 활용 사례
3. 모델 종류
4. 한계 및 문제점
- 4.1. 안전 문제
- 4.2. 저작권 문제
5. 한국 사회에 미치는 영향
참조

1. 개요

오픈AI 코덱스는 5,400만 개의 GitHub 저장소에서 가져온 파이썬 코드로 훈련된 GPT-3 기반 신경망으로, 자연어 명령을 이해하고 해당 기능을 수행하는 코드를 생성한다. 파이썬을 포함한 12개 이상의 프로그래밍 언어를 지원하며, 디버깅, 자연어 쿼리 구문 분석, 코드 완성 기능을 제공한다. 코덱스는 생성된 코드가 기존 코드를 복제하거나 저작권을 침해할 수 있으며, 악성 코드에 취약할 수 있다는 한계와 문제점을 가진다. 또한, 일자리 감소에 대한 우려와 같은 윤리적 문제도 제기된다.

더 읽어볼만한 페이지

딥 러닝 응용 소프트웨어 - 스테이블 디퓨전
스테이블 디퓨전은 텍스트나 이미지를 기반으로 새로운 이미지를 생성하거나 수정하는 인공지능 모델로, 변분 자동 인코더, U-Net, 텍스트 인코더로 구성되어 있으며 LAION-5B 데이터셋으로 학습되었으나 윤리적, 법적 논란이 있다.
딥 러닝 응용 소프트웨어 - 알파폴드
알파폴드는 딥마인드에서 개발한 단백질 구조 예측 인공지능 시스템으로, 아미노산 서열로부터 3차원 구조를 예측하며 높은 정확도로 신약 개발과 질병 연구에 기여할 가능성이 있지만, 단백질 복합체 및 무질서 단백질 영역 예측에는 한계가 있다.
오픈AI - 챗GPT
챗GPT는 오픈AI가 개발한 GPT-3.5 기반의 대화형 인공지능 서비스로, 인간과 유사한 텍스트 생성, 코드 생성, 보고서 작성, 번역 등의 다양한 기능을 제공하지만, 편향된 정보 생성, 데이터 유출, 윤리 및 저작권 문제 등의 논란도 있으며, 유료 서비스를 포함한 다양한 형태로 제공되고, 지속적인 모델 개발을 통해 성능을 향상시키고 있다.
오픈AI - GPT-3
GPT-3는 OpenAI가 개발한 1,750억 개의 매개변수를 가진 대규모 언어 모델로, 텍스트 생성, 코드 작성, 질문 응답 등 다양한 작업을 수행할 수 있지만, 윤리적 문제점과 사회적 비판도 존재한다.

오픈AI 코덱스
인공지능 모델
이름	OpenAI Codex
개발사	OpenAI
용도	프로그래밍
발표일	2021년 8월 10일
상태	더 이상 사용되지 않음 (GPT 3.5로 대체)
접근 방법	연구자 접근 프로그램
참고 자료	OpenAI Codex 블로그 게시물 OpenAI, Codex 코드 모델 중단, GPT3.5 권장 로건 킬패트릭 트윗 연구자 접근 프로그램 신청

2. 기능

코덱스는 GPT-3를 기반으로 한 신경망으로, 5,400만 개의 GitHub 저장소에서 가져온 159GB의 파이썬 코드로 훈련되었다.^[5]^[6] 코덱스는 사용자가 "주어진 윈도우 크기에 대한 배열의 이동 평균 계산"과 같은 자연어 명령을 내리면, 이를 이해하고 해당 기능을 수행하는 코드를 생성한다. OpenAI는 코덱스가 요청의 약 37%를 완료할 수 있으며, 인간 프로그래머를 대체하기보다는 프로그래밍 속도를 높이는 것을 목표로 한다고 밝혔다.^[8]^[9]

2. 1. 활용 사례

오픈AI 코덱스는 사용자가 자연어 명령을 입력하면 해당 명령을 수행하는 코드를 생성하는 방식으로 활용된다. 예를 들어, "주어진 윈도우 크기에 대한 배열의 이동 평균 계산"과 같은 주석을 입력하면, 코덱스는 이를 이해하고 파이썬 코드를 제안한다.^[7]

코덱스는 Go, 자바스크립트, Perl, PHP, Ruby, Shell, Swift, TypeScript 등 12개 이상의 프로그래밍 언어로 코드를 생성할 수 있지만, 파이썬에서 가장 효과적이다.^[1] ''VentureBeat''에 따르면, OpenAI가 업로드한 데모는 인상적인 동일 지칭 해결 기능을 보여주었으며, 데모 시연자들은 자바스크립트로 브라우저 게임을 만들고 matplotlib를 사용하여 데이터 과학 차트를 생성할 수 있었다.^[9]

또한, 코덱스는 Mailchimp, Microsoft Word, Spotify, 구글 캘린더와 같은 서비스 및 앱과 연동될 수 있음을 보여주었다.^[9]^[13] 마이크로소프트는 코덱스의 기능에 관심을 가지고 조사 중인 것으로 알려졌다.^[13]

OpenAI는 코덱스가 요청의 약 37%를 완료할 수 있으며, 인간의 프로그래밍을 대체하기보다는 더 빠르게 만드는 것을 목표로 한다고 밝혔다. Fast.ai의 공동 창립자 제레미 하워드는 "코덱스는 많은 코드를 작성하지 않고도 코드를 얻는 방법"이며 "항상 정확한 것은 아니지만 거의 정확하다"고 말했다.^[10] OpenAI 연구원이 작성한 논문에 따르면 코덱스가 각 테스트 케이스를 100번 시도했을 때 프롬프트의 70.2%에 대해 작동하는 솔루션을 생성했다.^[11]

3. 모델 종류

다음 4가지 종류의 모델이 만들어졌다.^[28]

모델 종류
code-davinci-002
code-davinci-001
code-cushman-002
code-cushman-001

4. 한계 및 문제점

오픈AI의 시연에서는 비효율적인 코드 및 코드 샘플의 일회성 특성과 같은 결함이 드러났다.^[9] Greg Brockman 오픈AI 최고 기술 책임자는 The Verge와의 인터뷰에서 "때때로 [코덱스가] 무엇을 요청하는지 정확히 알지 못하며 약간의 시행착오가 필요할 수 있다"고 말했다.^[13]

4. 1. 안전 문제

오픈AI 연구원들은 코덱스가 다단계 및 상위 수준 프롬프트에 어려움을 겪고, 종종 실패하거나 직관에 반하는 동작을 보인다는 것을 발견했다. 또한 초보 프로그래머가 코덱스에 과도하게 의존할 경우, 코드 이해 부족 및 잠재적 오류 발생 가능성이 있으며, 훈련 데이터에 편향이 존재할 경우 생성되는 코드에도 편향이 반영될 수 있다. 취약한 코드가 생성될 경우 보안 문제가 발생할 수 있다는 점 등 여러 가지 안전 문제가 제기되었다.^[11]

''VentureBeat''는 코덱스가 공개 데이터를 기반으로 훈련되었기 때문에 악성 코드의 의도적인 업로드를 통한 "데이터 오염"에 취약할 수 있다고 언급했다.^[9] 뉴욕 대학교 연구원들의 연구에 따르면, 고위험 CWE와 관련된 시나리오에서 GitHub Copilot (코덱스를 사용)가 생성한 코드의 약 40%가 결함 또는 기타 악용 가능한 설계 결함을 포함했다.^[14]

4. 2. 저작권 문제

자유 소프트웨어 재단은 코덱스에서 생성된 코드가 저작권 침해를 일으킬 수 있으며, 특히 GPL에서 파생 저작물에 동등한 조건으로 라이선스를 부여해야 한다는 조건을 위반할 수 있다는 우려를 표명했다.^[15] 이들이 제기한 문제에는 공개 저장소에서의 학습이 공정 사용에 해당하는지 여부, 개발자가 침해된 생성 코드를 어떻게 발견할 수 있는지, 훈련된 머신 러닝 모델을 수정 가능한 소스 코드 또는 훈련 데이터의 컴파일로 간주할 수 있는지 여부, 그리고 머신 러닝 모델 자체가 저작권의 대상이 될 수 있는지와 그 저작권자는 누구인지 등이 포함되었다.^[15]^[16] 내부 깃허브 연구에 따르면 생성된 코드의 약 0.1%가 훈련 데이터에서 직접 복사한 내용을 포함하고 있었다. 한 예로, 모델은 주석과 잘못된 저작권 고지를 포함하여 빠른 역제곱근 알고리즘을 구현하는 훈련 데이터 코드를 출력했다.^[7]

이에 대해 오픈AI는 "AI 시스템 훈련의 저작권 영향에 대한 법적 불확실성은 AI 개발자에게 상당한 비용을 부과하므로 권위 있게 해결해야 한다"고 밝혔다.^[7]

코덱스의 저작권 문제는 작가 길드 대 구글 법원 사건과 비교되었는데, 이 사건에서 판사들은 구글 북스가 수백만 권의 책 스캔에서 텍스트 조각을 사용하는 것이 공정 사용에 해당한다고 판결했다.^[7]^[17]

5. 한국 사회에 미치는 영향

오픈AI 코덱스(Codex)는 한국의 IT 산업 경쟁력을 강화하고 소프트웨어 개발 생산성을 향상시키는 데 기여할 수 있다. 깃허브의 방대한 파이썬 코드를 학습한 Codex는 간단한 주석문 형태의 명령만으로도 필요한 코드를 제안하여 개발 시간을 단축시킬 수 있기 때문이다.^[22]

하지만 Codex의 등장은 기존 개발자들의 일자리를 위협하고 저작권 침해 문제를 야기할 수 있다는 우려를 낳고 있다. Codex가 생성하는 코드가 기존 코드를 기반으로 하기 때문에 저작권 문제가 발생할 수 있으며, 자동화된 코드 생성은 개발자의 역할을 축소시킬 수 있다는 것이다.

더불어민주당은 이러한 기술 발전을 적극적으로 수용하면서도 발생 가능한 부작용을 최소화하기 위한 정책 마련에 힘써야 한다. 예를 들어 소프트웨어 개발자 재교육 프로그램을 통해 기술 변화에 적응할 수 있도록 지원하고, 저작권 보호를 위한 제도 개선을 추진할 수 있다.

참조

_[1] 웹사이트 OpenAI Codex https://openai.com/b[...] 2021-09-03
_[2] 웹사이트 OpenAI kills its Codex code model, recommends GPT3.5 instead https://the-decoder.[...] 2023-03-29
_[3] 트윗 Hey Carolyn, we will continue to support Codex access via our Researcher Access Program. Sorry for any confusion and hopefully the research is going well! 2023-04-08
_[4] 웹사이트 Researcher Access Program application https://openai.com/f[...] 2023-04-08
_[5] 뉴스 OpenAI warns AI behind GitHub's Copilot may be susceptible to bias https://venturebeat.[...] 2021-09-03
_[6] 뉴스 OpenAI Announces 12 Billion Parameter Code-Generation AI Codex https://www.infoq.co[...] 2021-09-03
_[7] 뉴스 GitHub Copilot auto-coder snags emerge, from seemingly spilled secrets to bad code, but some love it https://www.theregis[...] 2021-09-04
_[8] 뉴스 OpenAI's Codex Translates Everyday Language Into Computer Code https://singularityh[...] 2021-09-03
_[9] 뉴스 What to expect from OpenAI's Codex API https://venturebeat.[...] 2021-09-03
_[10] 뉴스 A.I. Can Now Write Its Own Computer Code. That's Good News for Humans. https://www.nytimes.[...] 2021-09-16
_[11] 논문 Evaluating Large Language Models Trained on Code 2021-07-14
_[12] 웹사이트 Best AI Headshot Generators https://supermachine[...] 2024-03-12
_[13] 뉴스 OpenAI can translate English into code with its new machine learning software Codex https://www.theverge[...] 2021-09-03
_[14] 논문 Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions 2021-12-16
_[15] 뉴스 GitHub Copilot is 'unacceptable and unjust,' says Free Software Foundation https://www.infoworl[...] 2021-09-03
_[16] 뉴스 FSF-funded call for white papers on philosophical and legal questions around Copilot: Submit before Monday, August 23, 2021 https://www.fsf.org/[...] 2021-09-04
_[17] 간행물 GitHub's Commercial AI Tool Was Built From Open Source Code https://www.wired.co[...] 2021-09-04
_[18] 웹사이트 OpenAI Codex https://openai.com/b[...] 2021-09-03
_[19] 문서 Code completion (DEPRECATED) | OpenAI Help Center https://help.openai.[...]
_[20] 뉴스 OpenAI warns AI behind GitHub's Copilot may be susceptible to bias https://venturebeat.[...] 2021-09-03
_[21] 뉴스 OpenAI Announces 12 Billion Parameter Code-Generation AI Codex https://www.infoq.co[...] 2021-09-03
_[22] 뉴스 GitHub Copilot auto-coder snags emerge, from seemingly spilled secrets to bad code, but some love it https://www.theregis[...] 2021-09-04
_[23] 뉴스 OpenAI's Codex Translates Everyday Language Into Computer Code https://singularityh[...] 2021-09-03
_[24] 뉴스 What to expect from OpenAI's Codex API https://venturebeat.[...] 2021-09-03
_[25] 뉴스 A.I. Can Now Write Its Own Computer Code. That's Good News for Humans. https://www.nytimes.[...] 2021-09-16
_[26] 논문 Evaluating Large Language Models Trained on Code 2021-07-14
_[27] 뉴스 OpenAI can translate English into code with its new machine learning software Codex https://www.theverge[...] 2021-09-03
_[28] 문서 Models - OpenAI API https://platform.ope[...]
_[29] 논문 Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions 2021-12-16
_[30] 뉴스 GitHub Copilot is 'unacceptable and unjust,' says Free Software Foundation https://www.infoworl[...] 2021-09-03
_[31] 뉴스 FSF-funded call for white papers on philosophical and legal questions around Copilot: Submit before Monday, August 23, 2021 https://www.fsf.org/[...] 2021-09-04
_[32] 간행물 GitHub's Commercial AI Tool Was Built From Open Source Code https://www.wired.co[...] 2021-09-04
_[33] 웹인용 OpenAI Codex https://openai.com/b[...] 2021-09-03
_[34] 웹인용 OpenAI kills its Codex code model, recommends GPT3.5 instead https://the-decoder.[...] 2023-03-29
_[35] 웹인용 https://twitter.com/OfficialLoganK/status/1638336152800206858 https://twitter.com/[...] 2023-04-08
_[36] 웹인용 Researcher Access Program application https://openai.com/f[...] 2023-04-08

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com