퍼셉트론

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
3. 구조 및 원리
- 3.1. 구조
- 3.2. 작동 원리
4. 학습 알고리즘
- 4.1. 단층 퍼셉트론 학습 알고리즘
- 4.2. 수렴성
5. 한계와 극복
- 5.1. XOR 문제
- 5.2. 다층 퍼셉트론과 오차 역전파
6. 응용 분야
참조

1. 개요

퍼셉트론은 1943년 워렌 매컬럭과 월터 피츠가 제안한 형식 뉴런을 기반으로 하는 인공 신경망의 초기 모델이다. 1950년대 프랭크 로젠블랫은 IBM 704를 사용하여 퍼셉트론을 시뮬레이션하고, 자체 제작 컴퓨터인 마크 1 퍼셉트론을 개발했다. 퍼셉트론은 수용층, 연합층, 반응층으로 구성되며, 입력값에 가중치를 곱하고 활성 함수를 통해 최종 출력을 결정하는 방식으로 작동한다. 단층 퍼셉트론은 선형 분류 문제에 사용되지만, XOR 문제와 같은 비선형 문제를 해결하기 위해 다층 퍼셉트론과 오차 역전파 학습 알고리즘이 개발되었다. 퍼셉트론은 인지과학, 기계 학습 분야에서 선형 분류기, 로지스틱 회귀 분석 등에 활용되며, 시그모이드 함수를 사용하는 다층 퍼셉트론은 PDP 모델 발전에 기여했다.

더 읽어볼만한 페이지

통계학에 관한 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
통계학에 관한 - 회귀 분석
회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다.
분류 알고리즘 - 인공 신경망
분류 알고리즘 - 서포트 벡터 머신
서포트 벡터 머신(SVM)은 지도 학습 모델로서 분류와 회귀 분석에 사용되며, 데이터 집합을 기반으로 새로운 데이터의 범주를 판단하는 비확률적 이진 선형 분류 모델을 생성하고, 커널 트릭을 통해 비선형 분류에도 활용될 수 있다.
인공신경망 - 인공 뉴런
인공 뉴런은 인공신경망의 기본 요소로서, 입력 신호에 가중치를 곱하고 합산하여 활성화 함수를 거쳐 출력을 생성하며, 생물학적 뉴런을 모방하여 설계되었다.
인공신경망 - 순환 신경망
순환 신경망(RNN)은 시계열 데이터나 순차 데이터 처리에 특화된 인공 신경망으로, 내부 상태를 유지하며 이전 시점의 정보를 반영하여 시퀀스 데이터의 시간적 의존성을 모델링하고, LSTM, GRU 등의 발전과 함께 음성 인식, 기계 번역 등 다양한 분야에서 활용되지만 기울기 소실 문제 해결을 위한 연구가 진행 중이다.

퍼셉트론
개요
유형	인공 신경망 모델
분류	선형 분류기
학습 방법	지도 학습
고안자	프랭크 로젠블랫
발표 연도	1957년
발표 논문	The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain
구조 및 작동 방식
기본 원리	입력값에 가중치를 곱하고, 그 합이 임계값(활성화 함수)을 넘으면 특정 클래스로 분류하는 방식
활성화 함수	주로 헤비사이드 계단 함수 또는 부호 함수 사용
가중치 학습	오차를 줄이는 방향으로 가중치를 조정하는 학습 알고리즘 사용
선형 분리 가능	선형 분리 가능한 데이터셋에 대해서만 수렴이 보장
수렴 조건	데이터셋이 선형 분리 가능해야 하고, 학습률이 적절해야 함
한계점
XOR 문제	XOR 문제와 같이 선형 분리가 불가능한 문제 해결 불가
비선형 문제	복잡한 비선형 분류 문제에 취약함
발전 및 응용
다층 퍼셉트론	퍼셉트론의 한계를 극복하기 위해 다층 퍼셉트론 개발
심층 신경망	심층 신경망의 기초가 되는 모델 중 하나
응용 분야	패턴 인식, 분류, 예측 등 다양한 분야에서 활용

2. 역사

마크 1 퍼셉트론 기계. 퍼셉트론 알고리즘의 최초 구현체로, 400픽셀 이미지를 만들기 위해 20x20 황화 카드뮴 광전지 카메라에 연결되었다. 입력 특징의 다양한 조합을 설정하는 감각-연관 플러그보드와 적응형 가중치를 구현하는 전위차계 배열이 특징이다.

최초의 인공신경망은 1943년 워렌 매컬럭과 월터 피츠가 "신경 활동에 내재된 사상의 논리적 계산"이라는 논문에서 제시했다.^[3]

1957년, 프랭크 로젠블랫은 코넬 항공 연구소에서 IBM 704 컴퓨터를 사용하여 퍼셉트론을 시뮬레이션했다.^[4]^[5] 이후 미국 해군 연구청 정보 시스템 부서와 로마 공군 개발 센터의 지원을 받아 마크 1 퍼셉트론을 제작했다. 이 기계는 1960년 6월 23일에 공개 시연되었으며,^[14] 1963년부터 1966년까지 미국 국가 사진 해석 센터(NPIC)의 비밀 프로젝트에서 사진 해석 도구로 개발되었다.^[6]

로젠블랫은 1958년 논문에서 "투영", "연관", "응답"을 나타내는 AI, AII, R 세 가지 셀("유닛")로 구성된 퍼셉트론을 설명하고,^[7] 1958년 11월 "사고 과정의 기계화" 심포지엄에서 발표했다.^[8] 그의 연구는 "인지 시스템 연구 프로그램"(1959년~1970년, Nonr-401(40))^[9]과 "프로젝트 PARA"(1957년~1963년, Nonr-2381(00))^[4]^[10] 계약으로 지원받았다. 1959년 국방 분석 연구소(1만 달러), 1961년 9월 ONR(153000USD), 1962년(108000USD) 계약이 체결되었다.^[11]

ONR 연구 관리자 마빈 데니코프는 ARPA 대신 ONR이 자금을 지원한 이유로 기술적 결과 도출 가능성이 낮다는 점을 들었다. ARPA 자금은 수백만 달러였던 반면, ONR 자금은 1만 달러 수준이었다. J.C.R. 리클라이더(ARPA IPTO 책임자)는 1950년대에 '자기 조직화' 등에 관심이 있었지만, 1960년대 중반에는 퍼셉트론을 공개 비판하고 허버트 사이먼과 앨런 뉴웰의 논리적 AI 접근 방식을 지지했다.^[12]

퍼셉트론은 프로그램이 아닌 기계를 목표로, IBM 704 소프트웨어로 처음 구현되었으나, 이후 "Project PARA"라는 프로젝트명으로 영상 인식용 마크 1 퍼셉트론으로 발전했다.^[17] 이 기계는 스미스소니언 국립 미국 역사 박물관에 보관되어 있다.^[13]

마크 1 퍼셉트론은 "감각 유닛"(S-유닛, 400개 광전지 20x20 배열, 각 S-유닛은 최대 40개 A-유닛 연결), "연관 유닛"(A-유닛, 512개 퍼셉트론), "반응 유닛"(R-유닛, 8개 퍼셉트론)의 3계층으로 구성되었다. 로젠블랫은 이를 "알파-퍼셉트론"으로 명명했다.^[14] S-유닛은 플러그보드로 A-유닛에 무작위 연결되었고(연결 가중치 고정), A-유닛은 전위차계로 조정 가능한 가중치를 사용해 R-유닛에 연결, 학습 중 가중치 업데이트는 전기 모터로 수행되었다.^[15]^[16]

1958년 미국 해군 기자 회견에서 로젠블랫의 발언은 초기 AI 커뮤니티에서 논쟁을 일으켰다. ''뉴욕 타임즈''는 "해군이 걷고, 말하고, 보고, 쓰고, 스스로 복제하고, 자신의 존재를 의식할 수 있을 것으로 예상하는 전자 컴퓨터의 배아"라고 보도했다.^[18] CIA 사진 부서는 1960년부터 1964년까지 항공 사진에서 군사적 표적 인식을 위해 마크 1 퍼셉트론을 연구했다.^[19]^[20]

로젠블랫은 1962년 ''신경역학 원리''에서 퍼셉트론 기계 변형(교차/역 결합, 4계층, 시간 지연, 오디오 분석 등) 실험을 설명했다.^[21] 이 기계는 1967년 코넬 대학교에서 스미스소니언 협회로 이전되었다.^[6]

초기 퍼셉트론은 유망했지만, 다양한 패턴 인식 훈련이 불가능함이 증명되어 인공 신경망 연구 침체기를 가져왔다. 2층 이상 전방향 신경망(다층 퍼셉트론)이 1층 퍼셉트론(단층 퍼셉트론)보다 처리 능력이 크다는 것이 인식되었기 때문이다. 단층 퍼셉트론은 선형적으로 분리 가능한 패턴만 학습 가능하다.^[22]

1969년 마빈 민스키와 시모어 페퍼트의 ''퍼셉트론''은 XOR 함수 학습 불가능을 보였다. 다층 퍼셉트론에도 유사 결과가 적용될 것이라고 잘못 알려졌지만, 사실이 아니다. 민스키와 페퍼트는 이미 다층 퍼셉트론이 XOR 함수 생성이 가능함을 알고 있었다. 그럼에도 이 저서로 인해 연구 관심과 자금 지원이 크게 감소, 1980년대 부활까지 10년이 더 걸렸다.^[22] 1987년 "퍼셉트론 - 확장판"으로 재출판되어 오류가 수정되었다.

로젠블랫은 자금 지원 감소에도 연구를 계속, 1961년부터 1967년 사이 음성 인식용 기계 토버모리(Tobermory)를 제작했다.^[23] 방 하나 크기,^[24] 12,000개 가중치(토로이드형 자기 코어) 4계층 구조였다. 완성 당시 디지털 컴퓨터 시뮬레이션이 더 빨라졌다.^[25] 그는 1971년 보트 사고로 사망했다.

커널 퍼셉트론 알고리즘은 1964년 아이저만 등에 의해 소개되었다.^[26] 퍼셉트론 알고리즘 마진 경계 보장은 프룬드와 샤피어(1998)에 의해 제시되었고,^[27] 모흐리와 로스타미자데(2013)가 확장 및 L1 경계를 제시했다.^[28]^[29]

퍼셉트론은 생물학적 뉴런의 단순화 모델이다. 생물학적 뉴런 모델 복잡성은 신경 행동 이해에 필요하지만, 선형 모델이 실제 뉴런 일부 행동을 생성 가능하다.^[30] 이진 함수와 학습 행동 결정 경계 해 공간은 연구 중이다.^[31]

1960년대 뉴럴 네트워크 붐을 일으켰으나, 마빈 민스키 등의 단층 퍼셉트론 한계 지적(선형 분리 가능 학습만 가능, 다층 퍼셉트론 학습 미지)으로 연구가 침체되었다. 이후 볼츠만 머신, 오차 역전파법 등으로 1980년대 재부흥했으나 1990년대 다시 침체되었다. 21세기 들어 심층 학습 실용화, 영상 인식 성과로 2020년 현재 다시 붐을 이루고 있다.

2. 1. 개발 배경

인공 신경망은 1943년 워렌 매컬럭과 월터 피츠가 "''신경 활동에 내재된 사상의 논리적 계산''"에서 발명했다.^[3]

1957년, 프랭크 로젠블랫은 코넬 항공 연구소에서 IBM 704로 퍼셉트론을 시뮬레이션했다.^[4]^[5] 이후 미국 해군 연구청 정보 시스템 부서와 로마 공군 개발 센터의 지원을 받아 자체 제작 컴퓨터인 마크 1 퍼셉트론을 제작, 1960년 6월 23일에 최초 공개 시연을 가졌다.^[14] 이 기계는 1963년부터 1966년까지 4년 동안 진행된 미국 국가 사진 해석 센터(NPIC)의 비밀 프로젝트에서 사진 해석에 유용한 도구로 개발되었다.^[6]

로젠블랫은 1958년 논문에서 퍼셉트론의 세부 내용을 설명하고,^[7] "투영", "연관", "응답"을 나타내는 AI, AII, R 세 가지 종류의 셀("유닛")로 구성됨을 밝혔다. 그는 1958년 11월에 열린 최초의 국제 AI 심포지엄인 "''사고 과정의 기계화''"에서 이를 발표했다.^[8]

로젠블랫의 프로젝트는 1959년부터 1970년까지 지속된 "인지 시스템 연구 프로그램"(Nonr-401(40))^[9]과 1957년^[4]부터 1963년까지 지속된 "프로젝트 PARA"(Nonr-2381(00), "PARA"는 "인지 및 인식 자동화"를 의미)^[10] 계약에 따라 자금 지원을 받았다.

1959년, 국방 분석 연구소는 그의 그룹에 10000USD 계약을 수여했다. 1961년 9월까지 ONR은 153000USD 상당의 계약을 추가 வழங்க했으며, 1962년에는 108000USD가 책정되었다.^[11]

ONR 연구 관리자 마빈 데니코프는 ARPA 대신 ONR이 퍼셉트론 프로젝트에 자금을 지원한 이유로 프로젝트의 단기 또는 중기적 기술 성과 가능성이 낮은 점을 들었다. ARPA의 자금은 수백만 달러였던 반면, ONR의 자금은 10000USD 정도였다. 한편, ARPA IPTO 책임자 J.C.R. 리클라이더는 1950년대에 '자기 조직화', '적응형' 등 생물학적 방법론에 관심을 보였으나, 1960년대 중반에는 퍼셉트론을 포함한 이러한 방법들을 공개 비판하고 허버트 사이먼과 앨런 뉴웰의 논리적 AI 접근 방식을 지지했다.^[12]

퍼셉트론은 프로그램이 아닌 기계를 목표로 했으며, 최초 구현은 IBM 704 소프트웨어였으나, 이후 "Project PARA"라는 프로젝트명으로 영상 인식용 맞춤형 하드웨어인 마크 1 퍼셉트론으로 발전했다.^[17] 이 기계는 현재 스미스소니언 국립 미국 역사 박물관에 보관되어 있다.^[13]

마크 1 퍼셉트론은 3개의 계층으로 구성되었다.

"감각 유닛"(S-유닛) 또는 "입력 망막": 20x20 그리드로 배열된 400개의 광전지 어레이. 각 S-유닛은 최대 40개의 A-유닛에 연결 가능.
"연관 유닛"(A-유닛): 512개의 퍼셉트론으로 구성된 은닉 계층.
"반응 유닛"(R-유닛): 8개의 퍼셉트론으로 구성된 출력 계층.

로젠블랫은 이 3계층 퍼셉트론 네트워크를 "알파-퍼셉트론"으로 명명했다.^[14]

S-유닛은 플러그보드를 통해 무작위로 A-유닛에 연결되며, 연결 가중치는 고정되어 학습되지 않았다. 로젠블랫은 망막이 시각 피질에 무작위로 연결되어 있다고 믿었고, 자신의 퍼셉트론 기계가 인간의 시각적 인식과 유사하기를 원했기에 무작위 연결을 주장했다.^[15]

A-유닛은 전위차계에 인코딩된 조정 가능한 가중치를 사용하여 R-유닛에 연결되며, 학습 중 가중치 업데이트는 전기 모터로 수행되었다.^[16]

1958년 미국 해군 주최 기자 회견에서 로젠블랫의 발언은 초기 AI 커뮤니티에서 격렬한 논쟁을 불러일으켰다. ''뉴욕 타임즈''는 퍼셉트론을 "해군이 걷고, 말하고, 보고, 쓰고, 스스로 복제하며, 자신의 존재를 의식할 수 있을 것으로 예상하는 전자 컴퓨터의 배아"라고 보도했다.^[18]

중앙정보국(CIA) 사진 부서는 1960년부터 1964년까지 항공 사진에서 군사적으로 중요한 실루엣 표적(예: 비행기와 배)을 인식하기 위해 마크 1 퍼셉트론 기계 사용을 연구했다.^[19]^[20]

1960년대에 뉴럴 네트워크(Neural Network) 붐을 일으켰으나, 60년대 말 마빈 민스키 등에 의해 단층 퍼셉트론은 선형 분리 가능한 것만 학습할 수 있다는 지적과, 다층 퍼셉트론 학습이 당시 알려지지 않았다는 점 때문에 일시적으로 연구가 침체되었다.

2. 2. 초기 연구 및 논쟁

워렌 매컬럭과 월터 피츠는 1943년에 "신경 활동에 내재된 사상의 논리적 계산"이라는 논문에서 인공 신경망을 발명했다.^[3]

1957년, 프랭크 로젠블랫은 코넬 항공 연구소에서 IBM 704를 사용하여 퍼셉트론을 시뮬레이션했다.^[4]^[5] 이후, 그는 미국 해군 연구청 정보 시스템 부서와 로마 공군 개발 센터로부터 자금을 지원받아 자체 제작 컴퓨터인 마크 1 퍼셉트론을 제작했다. 1960년 6월 23일에 처음으로 공개 시연된 이 기계는 "1963년부터 1966년까지 4년 동안 이루어진 비밀 프로젝트인 미국 국가 사진 해석 센터(NPIC)의 노력의 일환으로, 사진 해석가에게 유용한 도구로 이 알고리즘을 개발하기 위한 것이었다".^[6]

로젠블랫은 1958년 논문에서 퍼셉트론의 세부 내용을 설명하고, "투영", "연관", "응답"을 나타내는 AI, AII, R 세 가지 종류의 셀("유닛")로 구성된 퍼셉트론 구성을 제시했다. 그는 1958년 11월에 열린 최초의 국제 AI 심포지엄인 "사고 과정의 기계화"에서 자신의 연구 결과를 발표했다.^[8]

로젠블랫의 프로젝트는 1959년부터 1970년까지 지속된 계약 Nonr-401(40) "인지 시스템 연구 프로그램"^[9]과 1957년^[4]부터 1963년까지 지속된 계약 Nonr-2381(00) "프로젝트 PARA"("PARA"는 "인지 및 인식 자동화"를 의미함)^[10]에 따라 자금을 지원받았다.

1959년, 국방 분석 연구소는 로젠블랫 그룹에 10000USD의 계약을 수여했다. 1961년 9월까지 ONR은 153000USD 상당의 계약을 추가로 수여했으며, 1962년에는 108000USD가 책정되었다.^[11]

ONR 연구 관리자 마빈 데니코프는 ARPA 대신 ONR이 퍼셉트론 프로젝트에 자금을 지원한 이유에 대해, 이 프로젝트가 단기 또는 중기적으로 기술적 결과를 낼 가능성이 적었기 때문이라고 밝혔다. ARPA의 자금은 수백만 달러에 달했던 반면, ONR의 자금은 10000USD 정도였다. 한편, ARPA의 IPTO 책임자였던 J.C.R. 리클라이더는 1950년대에 '자기 조직화', '적응형' 및 기타 생물학적으로 영감을 받은 방법에 관심이 있었지만, 1960년대 중반에는 퍼셉트론을 포함한 이러한 방법들을 공개적으로 비판하며 허버트 사이먼과 앨런 뉴웰의 논리적 AI 접근 방식을 강력하게 지지했다.^[12]

퍼셉트론은 프로그램이 아닌 기계를 목표로 했으며, 최초 구현은 IBM 704 소프트웨어를 통해 이루어졌다. 이후 "Project PARA"라는 프로젝트명으로 영상 인식을 위해 맞춤형 하드웨어로 구현된 마크 1 퍼셉트론으로 발전했으며,^[17] 이 기계는 현재 스미스소니언 국립 미국 역사 박물관에 보관되어 있다.^[13]

마크 1 퍼셉트론은 3개의 계층으로 구성되었으며, 한 버전은 다음과 같이 구현되었다.

"감각 유닛"(S-유닛) 또는 "입력 망막"이라고 불리는, 20x20 그리드로 배열된 400개의 광전지 어레이. 각 S-유닛은 최대 40개의 A-유닛에 연결될 수 있다.
"연관 유닛"(A-유닛)이라고 불리는, 512개의 퍼셉트론으로 구성된 은닉 계층.
"반응 유닛"(R-유닛)이라고 불리는, 8개의 퍼셉트론으로 구성된 출력 계층.

로젠블랫은 자신이 실험한 다른 퍼셉트론 모델과 구분하기 위해 이 3계층 퍼셉트론 네트워크를 "알파-퍼셉트론"이라고 불렀다.^[14]

S-유닛은 플러그보드를 통해 무작위로(무작위 숫자표에 따라) A-유닛에 연결되어 "퍼셉트론에 특정한 의도적인 편향을 제거"했다. 연결 가중치는 고정되어 학습되지 않았다. 로젠블랫은 망막이 시각 피질에 무작위로 연결되어 있다고 믿었고, 자신의 퍼셉트론 기계가 인간의 시각적 인식과 유사하기를 원했기 때문에 무작위 연결을 강력하게 주장했다.^[15]

A-유닛은 전위차계에 인코딩된 조정 가능한 가중치를 사용하여 R-유닛에 연결되며, 학습 중 가중치 업데이트는 전기 모터에 의해 수행되었다.^[16] 하드웨어 세부 정보는 운영자 설명서에 나와 있다.^[17]

1958년 미국 해군이 주최한 기자 회견에서 로젠블랫은 퍼셉트론에 대한 발언을 했고, 이는 초기 AI 커뮤니티에서 격렬한 논쟁을 불러일으켰다. 로젠블랫의 발언을 바탕으로, ''뉴욕 타임즈''는 퍼셉트론을 "해군이 걸을 수 있고, 말할 수 있고, 볼 수 있고, 쓸 수 있고, 스스로 복제할 수 있으며, 자신의 존재를 의식할 수 있을 것으로 예상하는 전자 컴퓨터의 배아"라고 보도했다.^[18]

중앙정보국(CIA) 사진 부서는 1960년부터 1964년까지 항공 사진에서 군사적으로 중요한 실루엣 표적(예: 비행기와 배)을 인식하기 위해 마크 1 퍼셉트론 기계의 사용을 연구했다.^[19]^[20]

기호기반 AI 진영의 리더였던 마빈 민스키와 패퍼트는 <퍼셉트론(1969)>이라는 저서를 출간하고 퍼셉트론을 공격하기 시작했다. 그들은 인공지능 연구자들이 퍼셉트론 연구로 몰려가는 것을 두려워했다. 과학사회학자 미켈 올라자란(M. Olazaran)은 기호주의 진영이 단순히 과학적 반대만이 아니라, 인공지능 연구의 주도권을 놓고 연결주의 진영과 정치적 경쟁을 했다고 평가했다. 이것이 바로 퍼셉트론 논쟁이다.^[54] 민스키와 패퍼트는 퍼셉트론 진영을 공격하기 위해 신경망의 한계를 증명해야 했고, 이를 위해 로젠블랏의 퍼셉트론을 '복제'하여 작업했다. 그들은 기호수학적 관점으로 이 관찰 작업을 수행했는데, 이는 나중에 논쟁 종결과 신경망 이론에 중요한 기여를 했다.

2. 3. 연구 재개와 발전

워렌 매컬럭과 월터 피츠가 1943년 "신경 활동에 내재된 사상의 논리적 계산"에서 인공 신경망을 발명했다.^[3]

1957년, 프랭크 로젠블랫은 코넬 항공 연구소에서 IBM 704로 퍼셉트론을 시뮬레이션했다.^[4]^[5] 이후 미국 해군 연구청과 로마 공군 개발 센터의 지원을 받아 자체 제작 컴퓨터인 마크 1 퍼셉트론을 제작, 1960년 6월 23일에 처음 공개 시연했다.^[14] 이 기계는 1963년부터 1966년까지 4년간 진행된 미국 국가 사진 해석 센터(NPIC)의 비밀 프로젝트에서 사진 해석에 활용되었다.^[6]

로젠블랫은 1958년 논문에서 "투영", "연관", "응답"을 나타내는 AI, AII, R 세 가지 종류의 셀("유닛")로 구성된 퍼셉트론의 세부 내용을 설명하고, 1958년 11월 "사고 과정의 기계화" 심포지엄에서 발표했다.^[7]^[8]

로젠블랫의 프로젝트는 1959년부터 1970년까지 "인지 시스템 연구 프로그램"(Nonr-401(40)),^[9] 1957년부터 1963년까지 "프로젝트 PARA"(Nonr-2381(00), "인지 및 인식 자동화"를 의미)^[4]^[10] 계약에 따라 자금을 지원받았다. 1959년 국방 분석 연구소에서 1만 달러, 1961년 9월까지 ONR에서 153000USD, 1962년에는 108000USD 상당의 계약을 추가로 수여했다.^[11]

ONR 연구 관리자 마빈 데니코프는 ARPA 대신 퍼셉트론 프로젝트에 자금을 지원한 이유로 기술적 결과 도출 가능성이 낮다는 점을 들었다. ARPA의 자금은 수백만 달러였던 반면, ONR의 자금은 1만 달러 정도였다. J.C.R. 리클라이더(ARPA IPTO 책임자)는 1950년대에 '자기 조직화', '적응형' 등 생물학적 방법에 관심이 있었지만, 1960년대 중반에는 퍼셉트론을 공개 비판하고 허버트 사이먼과 앨런 뉴웰의 논리적 AI 접근 방식을 지지했다.^[12]

퍼셉트론은 프로그램이 아닌 기계를 목표로 했으며, 최초 구현은 IBM 704 소프트웨어였지만, 이후 "Project PARA"라는 프로젝트명으로 영상 인식을 위한 맞춤형 하드웨어 마크 1 퍼셉트론으로 발전했다.^[17] 이 기계는 현재 스미스소니언 국립 미국 역사 박물관에 있다.^[13]

마크 1 퍼셉트론의 구성 요소는 다음과 같다.

"감각 유닛"(S-유닛) 또는 "입력 망막": 400개의 광전지 어레이 (20x20 그리드). 각 S-유닛은 최대 40개의 A-유닛에 연결 가능.
"연관 유닛"(A-유닛): 512개의 퍼셉트론으로 구성된 은닉 계층.
"반응 유닛"(R-유닛): 8개의 퍼셉트론으로 구성된 출력 계층.

로젠블랫은 이 3계층 퍼셉트론 네트워크를 "알파-퍼셉트론"이라고 불렀다.^[14] S-유닛은 플러그보드를 통해 무작위로 A-유닛에 연결되었고, 연결 가중치는 고정되어 학습되지 않았다. 로젠블랫은 망막이 시각 피질에 무작위로 연결되어 있다고 믿었고, 자신의 퍼셉트론 기계가 인간의 시각적 인식과 유사하기를 원했기 때문에 무작위 연결을 주장했다.^[15] A-유닛은 전위차계에 인코딩된 조정 가능한 가중치를 사용하여 R-유닛에 연결되었으며, 학습 중 가중치 업데이트는 전기 모터로 수행되었다.^[16] 하드웨어 세부 정보는 운영자 설명서에 나와 있다.^[17]

1958년 미국 해군 주최 기자 회견에서 로젠블랫의 발언은 초기 AI 커뮤니티에서 논쟁을 일으켰다. ''뉴욕 타임즈''는 퍼셉트론을 "해군이 걷고, 말하고, 보고, 쓰고, 스스로 복제하고, 자신의 존재를 의식할 수 있을 것으로 예상하는 전자 컴퓨터의 배아"라고 보도했다.^[18]

중앙정보국(CIA) 사진 부서는 1960년부터 1964년까지 항공 사진에서 군사적 실루엣 표적(예: 비행기, 배) 인식을 위해 마크 1 퍼셉트론 기계를 연구했다.^[19]^[20]

로젠블랫은 1962년 ''신경역학 원리(Principles of Neurodynamics)''에서 퍼셉트론 기계의 여러 변형(교차/역 결합, 4계층 퍼셉트론, 시간 지연 통합, 오디오 분석 등)에 대한 실험을 설명했다. (1961년 보고서 출판 버전)^[21] 이 기계는 1967년 해군 연구소 관리하에 코넬 대학교에서 스미스소니언 협회로 이전되었다.^[6]

초기 퍼셉트론은 유망했지만, 곧 여러 패턴을 인식하도록 훈련시킬 수 없다는 것이 증명되어 인공 신경망 연구 침체기를 가져왔다. 2개 이상 층을 가진 전방향 신경망(다층 퍼셉트론)이 1개 층 퍼셉트론(단층 퍼셉트론)보다 처리 능력이 크다는 것이 인식되었기 때문이다.

단층 퍼셉트론은 선형적으로 분리 가능한 패턴만 학습 가능하다.^[22] 분류 작업에서 단일 노드는 데이터 포인트를 나누는 단일 선을, 더 많은 노드는 더 많은 분할 선을 만들지만, 복잡한 분류를 위해서는 이 선들이 결합되어야 한다. 두 번째 퍼셉트론 층은 분리 불가능한 문제 해결에 충분하다.

1969년, 마빈 민스키와 시모어 페퍼트의 ''퍼셉트론''은 네트워크가 XOR 함수를 학습 불가능함을 보였다. 다층 퍼셉트론에도 유사한 결과가 적용될 것이라고 잘못 알려졌지만, 이는 사실이 아니다. 민스키와 페퍼트는 이미 다층 퍼셉트론이 XOR 함수를 생성 가능함을 알고 있었다. 그럼에도 불구, 잘못 인용되는 이 저서로 인해 인공 신경망 연구 관심과 자금 지원이 크게 감소했다. 1980년대 인공 신경망 연구 부활까지 10년이 더 걸렸다.^[22] 1987년 "퍼셉트론 - 확장판"으로 재출판되어 원본 오류가 수정되었다.

로젠블랫은 자금 지원 감소에도 불구, 퍼셉트론 연구를 계속했다. 1961년부터 1967년 사이 제작된 음성 인식용 기계 토버모리(Tobermory)는 방 하나 크기로,^[23]^[24] 토로이드형 자기 코어를 이용해 구현된 12,000개 가중치를 가진 4계층 구조였다. 완성 당시 디지털 컴퓨터 시뮬레이션이 특수 목적 퍼셉트론 기계보다 빨라졌다.^[25] 그는 1971년 보트 사고로 사망했다.

커널 퍼셉트론 알고리즘은 1964년 아이저만(Aizerman) 등에 의해 소개되었다.^[26] 퍼셉트론 알고리즘 마진 경계 보장은 프룬드와 샤피어(1998)에 의해 제시되었고,^[27] 최근 모흐리와 로스타미자데(Rostamizadeh)(2013)가 이전 결과 확장 및 L1 경계를 제시했다.^[28]^[29]

퍼셉트론은 생물학적 뉴런의 단순화 모델이다. 생물학적 뉴런 모델 복잡성은 신경 행동 이해에 필요하지만, 연구에 따르면 퍼셉트론과 같은 선형 모델이 실제 뉴런의 일부 행동을 생성할 수 있다.^[30] 모든 이진 함수와 학습 행동에 대한 결정 경계 해 공간은 연구 중이다.^[31]

3. 구조 및 원리

1943년에 발표된 형식 뉴런을 기반으로 한 퍼셉트론은, 1970년대 데이비드 마^[46]와 제임스 앨버스^[47]에 의해 소뇌가 퍼셉트론이라는 가설이 제기되었다. 이후 이토 마사오 등의 전정안구반사 연구^[48]를 통해 평행섬유-푸르키네 세포 간 시냅스의 장기억압(LTD)이 발견되면서 소뇌 퍼셉트론설은 지지를 받고 있다.

퍼셉트론은 반복적 학습 방법을 통해 연결 강도를 조정하며, 특정 목적에 맞는 정확한 연결 강도에 수렴하는 것으로 입증되었다.^[51] 초기에는 인지 능력이 있다는 점에서 주목받았으나, AND, OR 연산과 같이 선형 분리가 가능한 문제만 해결할 수 있다는 한계가 있었다.^[51] 퍼셉트론 학습은 입력을 기대하는 출력값으로 변환할 수 있는 최적의 가중치를 찾는 작업이다.

3. 1. 구조

퍼셉트론은 본래 1950년대에 로젠블랫(Rosenblatt)이 제안한 초기 신경망 모델로, 수용층, 연합층, 반응층의 세 부분으로 구성된다.^[51] 수용층은 외부 자극을 받아들이고, 연합층은 수용층의 가중 압력을 받아 반응층으로 전달하며, 반응층은 최종 출력을 내보낸다.^[51]

입력값에 적절한 가중치를 적용하고, 그 결과로 나온 가중치 합을 함수에 전달하여 출력 o를 생성합니다.

최초의 퍼셉트론 기계인 마크 1 퍼셉트론은 영상 인식을 위해 맞춤형 하드웨어로 구현되었다.^[17] 이 기계는 3개의 계층으로 구성되었는데, 한 버전은 다음과 같다.

감각 유닛(S-유닛): 20x20 그리드로 배열된 400개의 광전지 어레이로, "입력 망막"이라고도 불린다. 각 S-유닛은 최대 40개의 A-유닛에 연결될 수 있다.
연관 유닛(A-유닛): 512개의 퍼셉트론으로 구성된 은닉 계층이다.
반응 유닛(R-유닛): 8개의 퍼셉트론으로 구성된 출력 계층이다.

로젠블랫은 이 3계층 퍼셉트론 네트워크를 "알파-퍼셉트론"이라고 불렀다.^[14] S-유닛은 플러그보드를 통해 무작위로 A-유닛에 연결되며, 연결 가중치는 고정되어 학습되지 않는다.^[15] A-유닛은 전위차계에 인코딩된 조정 가능한 가중치를 사용하여 R-유닛에 연결되며, 학습 중 가중치 업데이트는 전기 모터에 의해 수행되었다.^[16]

현대적인 의미에서 퍼셉트론은 임계 함수라고 하는 이진 분류기를 학습하는 알고리즘이다. 임계 함수는 입력

\mathbf{x}

(실수값 벡터)를 출력값

f(\mathbf{x})

(단일 이진 값)에 매핑하는 함수이다.

:

f(\mathbf{x}) = h(\mathbf{w} \cdot \mathbf{x} + b)

여기서

h

는 헤비사이드 계단 함수,

\mathbf{w}

는 실수값 가중치의 벡터,

\mathbf{w} \cdot \mathbf{x}

는 점곱

\sum_{i=1}^m w_i x_i

이며,

m

은 퍼셉트론에 대한 입력의 수이고,

b

는 ''편향''이다.

신경망의 맥락에서 퍼셉트론은 헤비사이드 계단 함수를 활성화 함수로 사용하는 인공 뉴런이다. 다층 퍼셉트론과 구별하기 위해 '''단일층 퍼셉트론'''이라고도 하며, 가장 간단한 피드포워드 신경망이다.

퍼셉트론은 1943년에 발표된 형식 뉴런을 기반으로 한다. 로젠블랫은 이러한 형식 뉴런의 개념을 바탕으로 감각층(입력층), 연합층(중간층), 반응층(출력층)으로 구성된 퍼셉트론을 개발했다. 감각층과 연합층은 무작위로 연결되어 있으며, 감각층에는 외부에서 신호가 입력된다. 연합층은 감각층으로부터 정보를 받아 반응하고, 반응층은 연합층의 답에 가중치를 부여하여 다수결을 통해 답을 출력한다. 퍼셉트론에서 이 가중치는 인간의 기억에 해당한다.

3. 2. 작동 원리

퍼셉트론은 입력 노드, 가중치, 출력값으로 구성된다. 각 입력 노드에는 해당 입력값과 가중치가 곱해지고, 이 값들을 모두 더한 후 활성함수를 거쳐 출력값이 결정된다.

활성함수의 출력값이 특정 임계값(주로 0)보다 크면 1, 그렇지 않으면 0을 출력한다. 이 전체 과정을 퍼셉트론이라고 한다.^[52]

현대적 의미에서 퍼셉트론은 임계 함수라 불리는 이진 분류기를 학습하는 알고리즘이다. 임계 함수는 실수값 벡터 입력

\mathbf{x}

를 단일 이진 값 출력

f(\mathbf{x})

에 매핑하는 함수이다.

:

f(\mathbf{x}) = h(\mathbf{w} \cdot \mathbf{x} + b)

여기서

h

는 헤비사이드 계단 함수,

\mathbf{w}

는 실수값 가중치 벡터,

\mathbf{w} \cdot \mathbf{x}

는 점곱

\sum_{i=1}^m w_i x_i

이며,

m

은 퍼셉트론에 대한 입력의 수,

b

는 ''편향''이다. 편향은 결정 경계를 원점에서 멀리 이동시키며, 어떤 입력값에도 의존하지 않는다.

\mathbf{w}\cdot \mathbf{x} + b = (\mathbf{w}, b) \cdot (\mathbf{x}, 1)

이므로, 편향 항

b

를 가중치

\mathbf{w}_{m+1}

로, 각 입력

\mathbf{x}

에 좌표

1

을 추가하여 원점을 통과하는 선형 분류기로 작성할 수 있다.

:

f(\mathbf{x}) = h(\mathbf{w} \cdot \mathbf{x})

f(\mathbf{x})

의 이진 값(0 또는 1)은

\mathbf{x}

를 양성 또는 음성 인스턴스로 분류하는 데 사용된다. 공간적으로 편향은 평면 결정 경계의 위치(방향은 아님)를 이동시킨다.

신경망의 맥락에서 퍼셉트론은 헤비사이드 계단 함수를 활성화 함수로 사용하는 인공 뉴런이다. 퍼셉트론 알고리즘은 다층 퍼셉트론과 구별하기 위해 '''단일층 퍼셉트론'''이라고도 한다. 단일층 퍼셉트론은 가장 간단한 피드포워드 신경망이다.

4. 학습 알고리즘

학습 알고리즘은 단층 퍼셉트론뿐만 아니라 다층 퍼셉트론에도 적용될 수 있다. 단층 퍼셉트론의 학습 알고리즘은 다음과 같다. 여러 출력 유닛을 가진 단층 퍼셉트론의 경우, 한 출력 유닛의 가중치는 다른 모든 유닛과 완전히 분리되어 있으므로 각 출력 유닛에 대해 동일한 알고리즘을 실행할 수 있다.

은닉층이 있는 다층 퍼셉트론의 경우 역전파와 같은 더 정교한 알고리즘을 사용해야 한다. 퍼셉트론에 의해 모델링되는 활성화 함수 또는 기본 프로세스가 비선형인 경우, 활성화 함수가 미분 가능하기만 하면 델타 규칙과 같은 대체 학습 알고리즘을 사용할 수 있다.

여러 퍼셉트론이 인공 신경망에 결합될 때, 각 출력 뉴런은 다른 모든 뉴런과 독립적으로 작동한다. 따라서 각 출력의 학습은 개별적으로 고려할 수 있다.

학습을 위해 우선 몇 가지 변수들을 정의한다.

$r$ 은 퍼셉트론의 학습률이다. 학습률은 0과 1사이의 값으로, 값이 클수록 가중치 변화가 커진다.
$y = f(\mathbf{z})$ 는 입력 벡터 $\mathbf{z}$ 에 대한 퍼셉트론의 ''출력''을 나타낸다.
$D = \{(\mathbf{x}_1,d_1),\dots,(\mathbf{x}_s,d_s)\}$ 는 $s$ 개의 샘플로 구성된 ''훈련 집합''이며, 여기서:
* $\mathbf{x}_j$ 는 $n$ 차원 입력 벡터이다.
* $d_j$ 는 해당 입력에 대한 퍼셉트론의 원하는 출력 값이다.

특징 값은 다음과 같이 표시한다.

$x_{j,i}$ 는 $j$ 번째 훈련 ''입력 벡터''의 $i$ 번째 특징의 값이다.
$x_{j,0} = 1$ 이다.

가중치를 나타내기 위해 다음과 같이 한다.

$w_i$ 는 ''가중치 벡터''의 $i$ 번째 값으로, $i$ 번째 입력 특징의 값과 곱해진다.
$x_{j,0} = 1$ 이기 때문에 $w_0$ 는 편향 상수 $b$ 대신 사용하는 편향 역할을 한다.

\mathbf{w}

의 시간 의존성을 표시하기 위해 다음과 같이 사용한다.

$w_i(t)$ 는 시간 $t$ 에서의 가중치 $i$ 이다.

하위 섹션에 "단층 퍼셉트론 학습 알고리즘"에 대한 내용이 있으므로, 여기서는 학습 알고리즘에 대한 상세한 설명은 생략한다.

4. 1. 단층 퍼셉트론 학습 알고리즘

다음은 단일 출력 유닛을 가진 단층 퍼셉트론의 학습 알고리즘 예시이다. 여러 출력 유닛을 가진 경우, 각 유닛의 가중치는 서로 독립적이므로 각 출력 유닛에 대해 동일한 알고리즘을 실행하면 된다.

다층 퍼셉트론과 같이 은닉층이 있는 경우에는 역전파와 같은 더 정교한 알고리즘을 사용해야 한다. 활성화 함수가 미분 가능하면 델타 규칙과 같은 대체 학습 알고리즘을 사용할 수 있다. 아래의 학습 알고리즘은 비선형 활성화 함수를 가진 다층 퍼셉트론에도 종종 작동한다.

여러 퍼셉트론이 인공 신경망에 결합될 때, 각 출력 뉴런은 다른 모든 뉴런과 독립적으로 작동한다. 따라서 각 출력의 학습은 개별적으로 고려할 수 있다.

몇 가지 변수를 정의하면 다음과 같다.

$r$ 은 퍼셉트론의 학습률이다. 학습률은 일반적으로 1보다 작은 양수로 선택되며, 값이 클수록 가중치 변화의 변동성이 커진다.
$y = f(\mathbf{z})$ 는 입력 벡터 $\mathbf{z}$ 에 대한 퍼셉트론의 ''출력''이다.
$D = \{(\mathbf{x}_1,d_1),\dots,(\mathbf{x}_s,d_s)\}$ 는 $s$ 개의 샘플로 구성된 ''훈련 집합''이다.
* $\mathbf{x}_j$ 는 $n$ 차원 입력 벡터이다.
* $d_j$ 는 해당 입력에 대한 퍼셉트론의 원하는 출력 값이다.

특징 값은 다음과 같이 표시한다.

$x_{j,i}$ 는 $j$ 번째 훈련 ''입력 벡터''의 $i$ 번째 특징의 값이다.
$x_{j,0} = 1$ 이다.

가중치를 나타내기 위해 다음과 같이 한다.

$w_i$ 는 $i$ 번째 입력 특징의 값과 곱해지는 ''가중치 벡터''의 $i$ 번째 값이다.
$x_{j,0} = 1$ 이기 때문에 $w_0$ 는 편향 상수 $b$ 대신 사용하는 편향 역할을 한다.

\mathbf{w}

의 시간 의존성을 표시하기 위해 다음과 같이 사용한다.

$w_i(t)$ 는 시간 $t$ 에서의 가중치 $i$ 이다.

학습 알고리즘은 다음과 같다.

단계	설명
1	가중치를 초기화한다. 가중치는 0 또는 작은 난수로 초기화될 수 있다.
2	학습 집합의 각 예제에 대해 다음 단계를 수행한다.
2a	실제 출력을 계산한다.
2b	가중치를 업데이트한다.
3	반복 오차가 사용자가 지정한 임계값보다 작거나 미리 결정된 반복 횟수가 완료될 때까지 두 번째 단계를 반복한다.

$x$ 가 $\{-1, +1\}^n$ 이고 $y = \theta(x_i)$ 인 데이터셋을 생각해 보자. 양의 $x_i$ 를 갖는 모든 데이터 포인트는 $y=1$ 이고, 그 반대의 경우도 마찬가지이다. 퍼셉트론 수렴 정리에 따르면, 퍼셉트론은 최대 $n$ 번의 실수 후에 수렴한다.^[41]

만약 동일한 작업을 수행하는 논리 프로그램을 작성한다면, 각 양성 예제는 좌표 중 하나가 올바른 좌표임을 보여주고, 각 음성 예제는 그 '보완물'이 양성 예제임을 보여준다. 알려진 모든 양성 예제를 수집함으로써, 결국 하나의 좌표를 제외한 모든 좌표를 제거하게 되고, 그 시점에서 데이터셋을 학습하게 된다.^[41]

이 경계는 최악의 경우에 대해 점근적으로 정확하다. 최악의 경우, 처음 제시된 예제는 완전히 새로운 것이며 $n$ 비트의 정보를 제공하지만, 그 후의 각 예제는 이전 예제와 최소한으로 다를 것이며 각각 1비트의 정보를 제공한다. $n+1$ 개의 예제 후에는 $2n$ 비트의 정보가 있으며, 이는 퍼셉트론에 충분하다.^[32]

그러나 예제가 균일하게 무작위로 제시되는 경우 기대값 측면에서는 정확하지 않다. 첫 번째 예제는 $n$ 비트, 두 번째 예제는 $n/2$ 비트 등의 정보를 제공하며, 총 $O(\ln n)$ 개의 예제를 사용하기 때문이다.^[41]

단층 퍼셉트론은 입력층과 출력층만으로 구성되며 단일 뉴런을 갖는다.^[49] 단순 퍼셉트론은 선형 분리 가능한 문제를 유한 번의 반복으로 해결할 수 있다.^[50] 반면, 선형 비분리 문제를 해결할 수 없다는 사실이 마빈 민스키와 시모어 페퍼트에 의해 지적되었다.

4. 2. 수렴성

단일 퍼셉트론은 선형 분류기이다. 모든 입력 벡터가 올바르게 분류될 경우에만 안정적인 상태에 도달할 수 있다. 훈련 세트가 선형적으로 분리 가능하지 않은 경우, 즉 양성 예제를 초평면으로 음성 예제와 분리할 수 없는 경우 알고리즘은 해결책이 없으므로 수렴하지 않는다. 따라서 훈련 세트의 선형 분리 가능성을 사전에 알 수 없는 경우 아래 훈련 변형 중 하나를 사용해야 한다.^[35]

선형 분리 가능성은

\min(O(n^{d/2}), O(d^{2n}), O(n^{d-1} \ln n))

시간 내에 테스트할 수 있다. 여기서

n

은 데이터 포인트의 수이고

d

는 각 점의 차원이다.

훈련 세트가 선형적으로 분리 가능한 경우, 퍼셉트론은 유한하게 많은 실수를 한 후 수렴이 보장된다.^[36]

다음은 노비코프(Novikoff)(1962)에 의한 간단한 증명이다. 증명의 아이디어는 가중치 벡터가 항상 음의 점곱을 갖는 방향으로 제한된 양만큼 조정되므로 로 위에서 경계를 지을 수 있다는 것이다. 여기서 는 가중치 벡터의 변경 횟수이다. 그러나 만약 (알려지지 않은) 만족스러운 가중치 벡터가 존재한다면, 모든 변경은 이 (알려지지 않은) 방향으로 입력 벡터에만 의존하는 양의 값만큼 진행을 한다.

선형적으로 분리 가능한 훈련 세트의 경우 퍼셉트론 알고리즘은 어떤 해에 수렴이 보장되지만, 여전히 어떤 해든 선택할 수 있으며 문제는 다양한 품질의 많은 해를 가질 수 있다.^[37] 최적 안정성 퍼셉트론(optimal stability perceptron)은 현재 선형 서포트 벡터 머신으로 더 잘 알려져 있으며, 이 문제를 해결하기 위해 고안되었다 (Krauth와 메자드, 1987).^[38]

데이터 집합이 선형적으로 분리될 수 없는 경우, 단일 퍼셉트론이 수렴할 방법은 없다. 그러나 다음은 브래들리 에프론에 의해 처음 증명되었다.^[39]^[40]

5. 한계와 극복

마빈 민스키와 시모어 페퍼트는 1969년 저서 "퍼셉트론"에서 단층 퍼셉트론은 XOR 연산이 불가능하지만, 다층 퍼셉트론으로는 XOR 연산이 가능하다는 것을 보였다.^[53]

민스키와 페퍼트는 인공지능 연구자들이 퍼셉트론 연구로 몰려가는 것을 우려하여, "퍼셉트론(1969)"이라는 책을 출간하고 퍼셉트론을 공격하기 시작했다. 과학사회학자 미켈 올라자란(M. Olazaran)은 기호주의 진영이 과학적 반대뿐 아니라 인공지능 연구 주도권을 놓고 연결주의 진영과 정치적 경쟁을 했다고 평가했다. 이를 퍼셉트론 논쟁(Perceptron Controversy)이라고 한다.^[54]

초기에 퍼셉트론은 유망해 보였지만, 여러 종류의 패턴을 인식하도록 훈련시킬 수 없다는 것이 곧 증명되었다. 단층 퍼셉트론은 선형적으로 분리 가능한 패턴만 학습할 수 있기 때문이다.^[22] 분류 작업에서 단일 노드는 패턴을 형성하는 데이터 포인트를 나누는 하나의 선을 가지며, 더 많은 노드는 더 많은 분할 선을 만들 수 있지만, 복잡한 분류를 위해서는 이러한 선들이 결합되어야 한다.

이러한 한계로 인해 인공 신경망 연구는 몇 년간 침체기를 겪었으나, 두 개 이상의 층을 가진 전방향 신경망(다층 퍼셉트론)이 단층 퍼셉트론보다 더 큰 처리 능력을 가진다는 것이 인식되면서 다시 활발해졌다.

민스키와 페퍼트의 저서 ''퍼셉트론''은 단층 퍼셉트론이 XOR 함수를 학습할 수 없음을 보여주었지만, 그들은 이미 다층 퍼셉트론이 XOR 함수를 생성할 수 있다는 것을 알고 있었다.

포켓 알고리즘(Gallant, 1990)은 최상의 해를 "주머니에" 보관하는 방식으로 퍼셉트론 학습의 안정성 문제를 해결했으며, 분리 가능하지 않은 데이터 집합에도 사용될 수 있다. 맥스오버 알고리즘(Wendemuth, 1995)은 데이터 집합의 선형 분리 가능성에 대한 지식 없이도 수렴하여 오분류 수가 적은 해를 반환한다. 투표 퍼셉트론(Freund and Schapire, 1999)은 여러 가중 퍼셉트론을 사용하고, 각 퍼셉트론은 잘못 분류하기 전에 올바르게 분류한 예제의 수에 해당하는 가중치를 받는다.

최적 안정성의 퍼셉트론은 민-오버 알고리즘^[38] 또는 아다트론^[43]과 같은 반복적인 훈련 및 최적화로 결정될 수 있다. 아다트론은 이차 최적화 문제가 볼록하다는 점을 이용하여 서포트 벡터 머신의 개념적 기초가 되었다.

<math>\alpha</math>-퍼셉트론은 고정된 무작위 가중치의 전처리 계층과 임계값 출력 유닛을 추가하여, 이진 공간으로 투영함으로써 아날로그 패턴을 분류할 수 있었다. 충분히 높은 차원의 투영 공간에서는 패턴이 선형적으로 분리될 수 있다.

다층을 사용하지 않고 비선형 문제를 해결하는 또 다른 방법은 고차 네트워크(시그마-파이 유닛)를 사용하는 것이다. 이 네트워크에서는 입력 벡터의 각 요소가 곱해진 입력의 각 쌍별 조합(2차)으로 확장된다.

그러나 모든 훈련 데이터를 완벽하게 분류하는 분류기가 반드시 최상의 것은 아니다. 데이터가 등방향 가우스 분포에서 나온다는 사전 제약 조건이 있다면 입력 공간에서의 선형 분리가 최적이며, 비선형 해는 과적합을 유발한다.

다른 선형 분류 알고리즘으로는 위노우, 서포트 벡터 머신, 로지스틱 회귀 등이 있다.

5. 1. XOR 문제

마빈 민스키와 시모어 페퍼트는 1969년에 출간한 저서 "퍼셉트론"에서 단층 퍼셉트론은 XOR 연산이 불가능하지만, 다층 퍼셉트론으로는 XOR 연산이 가능함을 보였다.^[53] 이 책은 단층 퍼셉트론이 XOR 함수를 학습할 수 없다는 것을 보여주었지만,^[22] 민스키와 페퍼트는 이미 다층 퍼셉트론이 XOR 함수를 생성할 수 있다는 것을 알고 있었다.^[22] 그럼에도 불구하고 이 책은 인공 신경망 연구에 대한 관심과 자금 지원을 크게 감소시키는 결과를 가져왔다.

5. 2. 다층 퍼셉트론과 오차 역전파

마빈 민스키와 시모어 페퍼트는 저서 "퍼셉트론"에서 단층 퍼셉트론은 XOR 연산이 불가능하지만, 다층 퍼셉트론으로는 XOR 연산이 가능함을 보였다.^[53] 다층으로 하면 선형적으로 분리할 수 없는 문제를 풀 수 있다는 것은 매컬럭과 피츠 시대부터 알려져 있었지만, 기계 학습이 문제였다. 오차 역전파법은 다층 퍼셉트론의 학습에 대한 길을 열었다. '''심층 학습'''은 더 많은 층을 추가한 경우의 학습을 실용화하여 붐을 일으켰다.

6. 응용 분야

2002년부터 퍼셉트론 훈련은 자연어 처리 분야에서 품사 태깅, 구문 분석 (Collins, 2002)과 같은 작업에 널리 사용되기 시작했으며, 분산 컴퓨팅 환경에서 대규모 기계 학습 문제에도 적용되었다.^[44]

참조

_[1] 서적 Neurocomputing Addison-Wesley 1991
_[2] 논문 The Perceptron: A Model for Brain Functioning. I https://link.aps.org[...] 1962-01-01
_[3] 논문 A Logical Calculus of Ideas Immanent in Nervous Activity https://www.bibsonom[...] 1943
_[4] 논문 The Perceptron—a perceiving and recognizing automaton https://bpb-us-e2.wp[...] Cornell Aeronautical Laboratory
_[5] 논문 Perceptron Simulation Experiments https://ieeexplore.i[...] March 1960
_[6] 논문 Undercover Algorithm: A Secret Chapter in the Early History of Artificial Intelligence and Satellite Imagery https://www.tandfonl[...] 2022-06-21
_[7] 논문 The perceptron: A probabilistic model for information storage and organization in the brain. http://dx.doi.org/10[...] 1958
_[8] 간행물 Two Theorems of Statistical Separability in the Perceptron H. M. Stationery Office 1959
_[9] 기술보고서 Cognitive Systems Research Program https://apps.dtic.mi[...] Cornell University 1971
_[10] 기술보고서 Project Para, Perceiving and Recognition Automata https://apps.dtic.mi[...] Cornell Aeronautical Laboratory, Incorporated 1963
_[11] 논문 Inventing Intelligence: On the History of Complex Information Processing and Artificial Intelligence in the United States in the Mid-Twentieth Century https://www.reposito[...] [object Object] 2021-01-11
_[12] 논문 Controversy and the State: Lord ARPA and Intelligent Computing https://www.jstor.or[...] 1998
_[13] 웹사이트 Perceptron, Mark I https://americanhist[...] 2023-10-30
_[14] 서적 The Quest for Artificial Intelligence https://www.cambridg[...] Cambridge University Press 2009
_[15] 서적 Talking Nets: An Oral History of Neural Networks https://direct.mit.e[...] The MIT Press 2000
_[16] 서적 Pattern Recognition and Machine Learning Springer
_[17] 기술보고서 Mark I perceptron operators' manual (Project PARA) / https://apps.dtic.mi[...] Cornell Aeronautical Laboratory 1960
_[18] 논문 A Sociological Study of the Official History of the Perceptrons Controversy
_[19] 웹사이트 Perception Concepts to Photo-Interpretation https://www.cia.gov/[...] 2024-11-14
_[20] 논문 Artificial Worlds and Perceptronic Objects: The CIA's Mid-century Automatic Target Recognition https://direct.mit.e[...] 2024-09-11
_[21] 간행물 Principles of neurodynamics: Perceptrons and the theory of brain mechanisms https://archive.org/[...] Cornell Aeronautical Laboratory 1961-03-15
_[22] 서적 The Deep Learning Revolution https://books.google[...] MIT Press 2018
_[23] 기술보고서 A Description of the Tobermory Perceptron Cornell University 1962
_[24] 기술보고서 System and circuit designs for the Tobermory perceptron Cornell University 1963
_[25] 논문 Neural networks-then and now
_[26] 논문 Theoretical foundations of the potential function method in pattern recognition learning
_[27] 논문 Large margin classification using the perceptron algorithm http://cseweb.ucsd.e[...]
_[28] arXiv Perceptron Mistake Bounds
_[29] 서적 Foundations of Machine Learning https://mitpress.mit[...] MIT Press
_[30] 논문 Linear Summation of Excitatory Inputs by CA1 Pyramidal Neurons
_[31] 서적 Learning Behaviors of Perceptron iConcept Press
_[32] 서적 Information Theory, Inference and Learning Algorithms https://books.google[...] Cambridge University Press 2003-09-25
_[33] 논문 Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition https://ieeexplore.i[...] June 1965
_[34] 논문 General-Purpose Computation with Neural Networks: A Survey of Complexity Theoretic Results https://direct.mit.e[...] 2003-12-01
_[35] 웹사이트 Introduction to Machine Learning, Chapter 3: Perceptron https://openlearning[...] 2023-10-27
_[36] 논문 On convergence proofs for perceptrons 1963
_[37] 서적 Pattern Recognition and Machine Learning Springer Science+Business Media, LLC 2006-08-17
_[38] 논문 Learning algorithms with optimal stability in neural networks
_[39] 논문 On the boundedness of an iterative procedure for solving a system of linear inequalities https://www.ams.org/[...] 1970
_[40] 간행물 The perceptron correction procedure in nonseparable situations 1964
_[41] 서적 The Sciences of the Artificial, reissue of the third edition with a new introduction by John Laird The MIT Press 2019-08-13
_[42] 논문 Learning the Unlearnable
_[43] 논문 The AdaTron: an adaptive perceptron algorithm
_[44] 논문 Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL Association for Computational Linguistics
_[45] 논문 The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain
_[46] 논문 A theory of cerebellar cortex
_[47] 논문 A theory of cerebellar function
_[48] 논문 Climbing fibre induced depression of both mossy fibre responsiveness and glutamate sensitivity of cerebellar Purkinje cells
_[49] 웹사이트 What is Perceptron? A Beginners Guide [Updated] Simplilearn https://www.simplile[...] 2021-05-26
_[50] 웹사이트 有意に無意味な話: 単純パーセプトロンの収束定理と限界 https://starpentagon[...] 2020-08-16
_[51] 웹인용 [네이버 지식백과] 퍼셉트론 [perceptron] (실험심리학용어사전, 2008., 곽호완, 박창호, 이태연, 김문수, 진영선) https://terms.naver.[...]
_[52] 서적 모두의 딥러닝 길벗
_[53] 서적 Perceptrons MIT Press 1969
_[54] 서적 인공지능과 인간: 과학문화 함께 만들기 드림미디어 2022

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com