필기 인식
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
필기 인식은 컴퓨터가 사람의 필기체를 인식하여 디지털 텍스트로 변환하는 기술을 의미한다. 오프라인 필기 인식은 종이에 쓰인 텍스트를 스캔하여 인식하는 방식이며, 온라인 필기 인식은 디지털 장치에 펜으로 쓴 텍스트를 실시간으로 인식한다. 초기에는 개별 문자를 인식하는 데 중점을 두었으나, 최근에는 머신 러닝 기술을 활용하여 텍스트 줄 전체를 인식하는 방향으로 발전하고 있다. 필기 인식은 보험 회사 등에서 사용되며, 연구 분야로는 온라인 및 오프라인 인식, 서명 검증, 필기체 주소 해석 등이 있다.
더 읽어볼만한 페이지
- 사용자 인터페이스 기술 - 작업 보기
작업 보기(Task View)는 윈도우 운영체제에서 창 전환을 용이하게 하는 창 관리 기능으로, 윈도우의 창 전환기, Flip 3D를 거쳐 발전해왔으며, Flip 3D의 단점을 보완하는 응용 프로그램도 존재한다. - 사용자 인터페이스 기술 - 모바일 앱
모바일 앱은 휴대 기기에서 실행되는 애플리케이션으로, 개발 방식에 따라 네이티브 앱, 웹 기반 앱, 하이브리드 앱으로 나뉘며, 사용자 인터페이스 디자인이 중요하고 앱 스토어를 통해 배포되며, 기업은 모바일 애플리케이션 관리를 통해 보안을 강화한다. - 인공지능의 응용 - 가상 비서
가상 비서는 음성 또는 텍스트 입력을 해석하여 정보 제공, 일정 관리, 기기 제어 등 다양한 작업을 수행하는 소프트웨어 에이전트로서, 시리, 알렉사, 구글 어시스턴트와 같은 다양한 형태로 발전해 왔으며, 챗GPT와 같은 생성형 AI 기반 가상 비서의 등장과 함께 발전하고 있지만 개인 정보 보호와 같은 과제도 존재한다. - 인공지능의 응용 - 질의 응답
질의응답 시스템은 자연어 질문을 이해하고 답변을 생성하며, 질문 유형과 사용 기술에 따라 분류되고, 읽기 이해 기반 또는 사전 지식 기반으로 작동하며, 대규모 언어 모델과 다양한 아키텍처 발전에 힘입어 복잡한 질문에 대한 답변과 다양한 분야에 활용이 가능해졌다.
필기 인식 | |
---|---|
개요 | |
종류 | 문자 인식 기술 |
분야 | 패턴 인식, 인공지능 |
활용 | 우편 번호 자동 분류 은행 수표 처리 필기 입력 인터페이스 문서 자동화 정보 검색 |
기술적 측면 | |
과정 | 획득 전처리 특징 추출 분류 후처리 |
획득 | 디지타이저 스캐너 카메라 |
전처리 | 이진화 스큐 보정 노이즈 제거 스무딩 획 정규화 |
특징 추출 | 통계적 특징 (히스토그램, 픽셀 밀도) 구조적 특징 (획, 교차점) 변환 기반 특징 (푸리에 변환, 웨이블릿 변환) |
분류 | 신경망 서포트 벡터 머신 (SVM) 은닉 마르코프 모델 (HMM) K-최근접 이웃 알고리즘 (K-NN) 결정 트리 |
후처리 | 언어 모델 통합 문맥 정보 활용 사전 기반 오류 수정 |
과제 및 도전 | |
변동성 | 필기 스타일의 다양성 |
불완전성 | 획의 끊김, 겹침 |
복잡성 | 다양한 글꼴, 언어 지원 |
실시간 처리 | 빠른 응답 속도 요구 |
연구 동향 | |
딥러닝 | 합성곱 신경망 (CNN) 순환 신경망 (RNN) 장단기 기억 (LSTM) 네트워크 활용 |
데이터 증강 | 다양한 변형을 통한 학습 데이터 확장 |
주의 집중 메커니즘 | 중요한 부분에 집중하여 인식률 향상 |
종단간 학습 | 특징 추출과 분류를 통합하여 최적화 |
응용 분야 | |
모바일 기기 | 필기 입력, 검색 |
금융 | 수표 처리, 서명 검증 |
의료 | 의료 기록 입력, 처방전 인식 |
교육 | 디지털 노트, 시험 채점 |
물류 | 우편물 분류, 송장 처리 |
참고 자료 | |
관련 기술 | 광학 문자 인식 (OCR) 지능형 문자 인식 (ICR) 패턴 인식 자연어 처리 (NLP) |
관련 표준 | Unicode ISO |
2. 오프라인 필기 인식
오프라인 필기 인식은 이미지 속의 텍스트를 컴퓨터가 사용할 수 있는 문자 코드로 자동 변환하는 기술이다. 이는 필기의 정적 표현을 다루는 것으로, 사람마다 다른 필기체를 가지고 있어 비교적 어려운 작업이다. 현재까지 OCR 엔진은 주로 기계로 인쇄된 텍스트와 손으로 쓴 대문자 텍스트에 대한 ICR에 중점을 두고 있다.
오프라인 필기 인식 기술은 보험 회사와 같이 많은 손으로 쓴 문서를 처리하는 비즈니스에서 유용하게 활용된다. 인식 품질은 문서를 구조화함으로써 크게 향상될 수 있다. 예를 들어, 우편 번호 인식과 같이 대상 영역을 제한하면 인식률을 높일 수 있다.
2. 1. 전통적인 기술
전통적인 오프라인 필기 인식은 이미지 내의 텍스트를 컴퓨터 및 텍스트 처리 응용 프로그램에서 사용할 수 있는 문자 코드로 자동 변환하는 기술이다. 이 데이터는 필기의 정적 표현으로 간주된다. 오프라인 필기 인식은 사람마다 필기체가 다르기 때문에 상대적으로 어렵다. 현재까지 OCR 엔진은 주로 기계로 인쇄된 텍스트와 손으로 쓴 대문자 텍스트(ICR)에 중점을 두고 있다.[21]오프라인 필기 인식은 문자 추출과 문자 인식의 두 단계로 이루어진다. 주로 사용되는 기법으로는, 인식 대상 문자의 종류를 제한하거나 특수한 서식을 채택하여 특정 위치에 특정 문자 종류가 쓰이도록 하는 방법이 있다. 예를 들어 우편 번호를 인식하는 경우, 문자의 종류를 0부터 9까지의 숫자로 제한하여 인식 가능성을 높일 수 있다.
2. 1. 1. 문자 추출
오프라인 필기 인식은 종이에 쓰인 문서 이미지를 광학 스캔하여 해당 이미지를 자동으로 컴퓨터에서 처리 가능한 문자 코드 텍스트 데이터로 변환한다. 이 과정에서 스캔된 이미지로부터 개별 문자를 구분하여 추출해야 한다. 관련 도구들이 존재하지만[21], 이 과정에는 아직 해결되지 않은 문제들이 있다. 흔히 발생하는 문제는 두 문자가 붙어서 쓰여 하나의 문자로 추출되는 경우이다. 이는 다음 단계인 문자 인식 과정을 어렵게 만든다. 이러한 문제를 해결하기 위해 다양한 알고리즘이 고안되고 있다.2. 1. 2. 문자 인식
문자 인식은 추출된 개별 문자를 해당 문자의 코드로 변환하는 과정이다. 현재 여러 가지 다양한 인식 기술을 사용할 수 있다.인공 신경망 기반 인식 엔진은 먼저 훈련용 이미지 집합으로 학습한다. 그리고 훈련된 네트워크를 사용하여 문자를 인식한다. 인공 신경망은 각각의 훈련 이미지를 구별하는 속성을 학습하며, 인식 대상 이미지에 유사한 속성이 있는지 찾는다. 인공 신경망은 설정이 간단하지만, 인식 대상과 경향이 다른 훈련 이미지밖에 주어지지 않으면 인식률이 낮아진다.
특징 추출도 신경망과 유사한 방식으로 작동하지만, 프로그래머가 중요하다고 생각하는 속성을 결정하고 수동으로 설정해야 한다.
여기서 말하는 속성이란 다음과 같은 것이다.
속성 |
---|
종횡비 |
상반부 픽셀의 비율 |
우반부 픽셀의 비율 |
한 획으로 쓰인 선분의 개수 |
이미지 중심으로부터의 평균 거리 |
Y축을 중심으로 한 대칭성 |
X축을 중심으로 한 대칭성 |
이 기법은 인식 과정에서 속성을 제어할 수 있다는 장점이 있다. 그러나 특징량은 자동으로 학습되지 않으므로 신경망과 같은 기계 학습보다 개발에 훨씬 더 많은 시간이 소요된다.
2. 2. 현대적인 기술
현대적인 기술은 분할에 집중했던 전통적인 기술과 달리, 분할된 텍스트 줄의 모든 문자를 인식하는 데 중점을 둔다. 특히 머신 러닝 기술을 활용하여 시각적 특징을 학습한다.[4] 오프라인 필기 인식은 종이에 쓰인 문서를 스캔하여 컴퓨터가 처리 가능한 텍스트 데이터로 변환하는데, 사람마다 필체가 달라 일반적인 광학 문자 인식(OCR)보다 어렵다. 현재의 지능형 문자 인식(ICR)은 주로 손으로 쓴 문자를 대상으로 하지만, 모든 필기체를 인식하는 것은 불가능하다.2. 2. 1. 머신 러닝 기반 인식
현대적인 기술은 분할된 텍스트 줄의 모든 문자를 인식하는 데 중점을 둔다. 특히, 이전에 사용되었던 제한적인 특징 공학을 피하면서 시각적 특징을 학습할 수 있는 머신 러닝 기술에 초점을 맞춘다. 최첨단 방법은 합성곱 신경망을 사용하여 텍스트 줄 이미지의 여러 겹치는 창에서 시각적 특징을 추출하고, 순환 신경망은 이를 사용하여 문자 확률을 생성한다.[4]인공 신경망 기반 인식 엔진은 먼저 훈련용 이미지 집합으로 학습한다. 그리고 훈련된 네트워크를 사용하여 문자를 인식한다. 인공 신경망은 각각의 훈련 이미지를 구별하는 속성을 학습하며, 인식 대상 이미지에 유사한 속성이 있는지 찾는다. 인공 신경망은 설정이 간단하지만, 인식 대상과 경향이 다른 훈련 이미지만 주어지면 인식률이 낮아진다.
3. 온라인 필기 인식
온라인 필기 인식은 사용자가 태블릿, PDA 등 특수한 장치의 화면에 펜이나 스타일러스로 글씨를 쓰면 실시간으로 인식하여 디지털 텍스트로 변환하는 기술이다. 이 기술은 펜 끝의 움직임과 펜-업/펜-다운 전환을 감지하는 센서를 통해 이루어지며, 수집된 데이터는 "디지털 잉크"라고 불린다.[5] 디지털 잉크는 컴퓨터 및 텍스트 처리 응용 프로그램에서 사용할 수 있는 문자 코드로 변환된다.
1980년대 초, 키보드 입력의 대안으로 필기 인식 기술을 채택한 상용 제품들이 등장했다. Pencept Penpad[22], Inforite의 POS 단말[23] 등이 초기 제품이며, 개인용 컴퓨터 시장이 커지면서 PenCept[24], CIC[25] 등에서 필기 인식 시스템을 출시했다. 최초의 태블릿형 휴대용 컴퓨터는 1989년 9월에 출시된 GRiD Systems의 GRiDPad이며, MS-DOS 기반 운영 체제를 탑재했다.
1990년대 초에는 NCR, IBM, EO가 공동으로 GO사의 PenPoint OS를 탑재한 태블릿 PC를 출시했다. PenPoint는 필기 인식 및 제스처 기능을 제공했으며, IBM은 ThinkPad 브랜드에 독자적인 필기 인식 기술을 사용했다. 이 기술은 마이크로소프트의 Windows for Pen Computing과 OS/2에도 이식되었으나, 상업적으로는 실패했다.
전자 공학의 발전으로 필기 인식 장치는 소형화되었고, PDA에 활용되기 시작했다. Apple Computer의 뉴턴은 필기 입력을 제공한 최초의 PDA였으나, 낮은 신뢰성 등의 문제로 상업적으로 성공하지 못했다. 이후 뉴턴의 기능은 Mac OS X 10.2로 이식되어 Inkwell이 되었다.
palmOne (현 Palm Inc.)은 그래피티 인식 시스템을 기반으로 한 PDA 시리즈를 개발하여 판매했다. 그래피티는 알파벳과 일대일로 대응하는 한 획 패턴을 사용하여 인식 정확도를 높였지만, 사용자는 입력 패턴을 익혀야 했다. 초기 그래피티 방식은 제록스의 특허를 침해하여, 이후 CIC 시스템의 라이선스를 취득하여 변경했다.
샤프는 뉴턴 OS의 일본어 로컬라이제이션을 진행했지만, 뉴턴의 상업적 실패로 독자 노선으로 전환했다. 전자 수첩을 확장하여 펜 조작 UI를 도입한 PDA "PI-3000"은 일본에서 큰 인기를 얻었으며, 자우루스라는 이름으로 시리즈화되었다. 필기 인식 엔진은 매년 개선되었지만, 인식 속도는 다소 느렸다.
마이크로소프트는 펜 조작 UI를 가진 OS "Windows Mobile"을 개발하여 라이선스 판매를 했다. Windows Mobile을 채택한 PDA는 Palm의 점유율을 일부 가져왔지만, 큰 수요를 창출하지는 못했다.
데스크톱 OS 기반 필기 인식 시스템으로는 Windows XP Tablet PC Edition이 있다. 태블릿 PC는 터치 패널을 장착한 노트북으로, 스타일러스로 화면에 문자를 입력할 수 있다. Windows 7은 학습 기능이 있는 고도화된 필기 인식 시스템을 갖추고 있으며, 일본어, 중국어, 한국어 등에도 대응했다.
마이크로소프트의 태블릿 PC용 OS는 "Inferno"라고 불리는 지연 시간 신경망 (TDNN) 분류기를 채용했으며, Newton OS 2.0에서 사용되었던 CalliGrapher도 TDNN과 함께 두 번째 인식 엔진이 되었다. CalliGrapher의 신세대판[26]은 Windows Mobile 버전으로 출시되었다.
범용 OS를 사용한 필기 인식 시스템은 생보·손보 업계에서 터치 패널 탑재 핸디 PC에 사용되거나, 키오스크 단말기에 펜 조작이 가능한 소형 PC가 이용되는 경우가 있었다.
필기 인식 입력 소프트웨어 개발도 활발하게 이루어졌다. EverNote Corporation의 riteScript는 제3세대 필기 인식 기술로, ritePen 및 Evernote 소프트웨어에 채용되었다.
CellWriter[27]는 Linux용 오픈 소스 필기 인식 프로그램으로, 사용자의 습관을 학습하는 방식이다. MyScript Builder[29]는 VisionObjects가 출시한 필기 인식 SDK이다. Anoto가 개발한 기술[30]과 같이 디지털 펜으로 종이에 문자를 쓰고 디지털화하는 시도도 이루어졌다.
3. 1. 구성 요소
온라인 필기 인식 인터페이스는 일반적으로 다음과 같은 요소로 구성된다.- 사용자가 필기할 수 있는 펜 또는 스타일러스
- 터치 감지 표면. 출력 디스플레이와 통합되거나 인접할 수 있다.
- 쓰기 표면에서 스타일러스의 움직임을 해석하여 결과 스트로크를 디지털 텍스트로 변환하는 소프트웨어 응용 프로그램.[5]
3. 2. 처리 과정
온라인 필기 인식 과정은 일반적으로 전처리, 특징 추출, 분류의 세 단계로 나뉜다.[5] 전처리 단계에서는 인식 속도와 정확성을 높이기 위해 불필요한 정보를 제거한다. 특징 추출 단계에서는 인식 모델에 중요한 정보를 강조하기 위해 벡터 필드에서 고차원 데이터를 추출하며, 여기에는 펜 압력, 속도, 필기 방향 변화 등의 정보가 포함될 수 있다. 마지막 분류 단계에서는 다양한 모델을 사용하여 추출된 특징을 클래스에 매핑하여 문자나 단어를 식별한다.3. 2. 1. 전처리
전처리는 인식에 부정적인 영향을 줄 수 있는 입력 데이터의 관련 없는 정보를 제거하는 것을 목표로 한다.[5] 이는 속도와 정확성에 관련이 있다. 전처리는 일반적으로 이진화, 정규화, 샘플링, 평활화 및 노이즈 제거로 구성된다.[6]3. 2. 2. 특징 추출
전처리 알고리즘에서 수신된 2차원 이상 벡터 필드에서 고차원 데이터가 추출된다. 이 단계의 목적은 인식 모델에 중요한 정보를 강조하는 것이다. 이 데이터에는 펜 압력, 속도 또는 필기 방향의 변화와 같은 정보가 포함될 수 있다.[5]3. 2. 3. 분류
전처리는 인식에 부정적인 영향을 줄 수 있는 입력 데이터의 관련 없는 정보를 제거하는 과정으로,[5] 속도와 정확성에 영향을 준다. 전처리는 이진화, 정규화, 샘플링, 평활화, 노이즈 제거 등으로 구성된다.[6] 특징 추출은 전처리된 2차원 이상의 벡터 필드에서 고차원 데이터를 추출하는 단계로, 인식 모델에 중요한 정보를 강조한다. 이 정보에는 펜 압력, 속도, 필기 방향 변화 등이 포함될 수 있다. 마지막 단계인 분류에서는 다양한 모델을 사용하여 추출된 특징을 여러 클래스에 매핑하여 해당 특징이 나타내는 문자나 단어를 식별한다.4. 역사
필기 인식 기술은 1980년대부터 상용화되기 시작하여, PDA와 태블릿 PC 등 다양한 장치에 적용되었다.
1962년, 모스크바에 있던 셸리아 구버만은 최초의 패턴 인식 프로그램을 작성했다.[13] 초기 소프트웨어는 문자가 분리된 인쇄체를 인식할 수 있었으나, 연결된 문자가 있는 필기체는 세이어의 역설을 야기했다.
1990년대 초, 파라그래프 인터내셔널(ParaGraph International)과 렉시커스(Lexicus)는 필기체 인식 시스템을 개발했다. 파라그래프는 스테판 파치코프가 설립했으며, 렉시커스는 론존 나그와 크리스 코르티가 설립했다. 파라그래프의 CalliGrapher 시스템은 애플 뉴턴에 탑재되었고, 렉시커스의 Longhand 시스템은 PenPoint 및 Windows 운영 체제에서 상용으로 제공되었다. 렉시커스는 1993년 모토로라에 인수되어 중국어 필기 인식 및 예측 텍스트 시스템을 개발했다. 파라그래프는 1997년 SGI에 인수되었고, 필기 인식 팀은 P&I 부서를 결성, 이후 바뎀이 SGI로부터 인수했다. 마이크로소프트는 1999년 바뎀으로부터 P&I가 개발한 CalliGrapher 필기 인식 및 기타 디지털 잉크 기술을 인수했다.
마이크로소프트의 태블릿 PC용 OS는 "Inferno"라고 불리는 지연 시간 신경망 (TDNN) 분류기를 채용했으며, 마이크로소프트가 직접 개발했다. Newton OS 2.0에서 사용되었던 CalliGrapher는 TDNN과 함께 두 번째 인식 엔진이 되었다.
볼프람 매스매티카(8.0 이상)는 필기 또는 텍스트 인식 기능인 TextRecognize를 제공한다.
- CellWriter[27]는 Linux용 오픈 소스 필기 인식 프로그램으로, 미네소타 대학교의 Undergraduate Research Opportunity Program[28]의 일환으로 Michael Levin 등이 개발했다. CellWriter는 필기자 습관을 학습하며, 사용 전 훈련이 필요하다.
- MyScript Builder[29]는 VisionObjects가 출시한 필기 인식 SDK로, Anoto 디지털 펜을 사용한 애플리케이션 개발에 자주 이용된다.
- Anoto가 개발한 기술[30]처럼 디지털 펜으로 종이에 쓴 문자를 디지털 텍스트로 변환하는 시도도 이루어졌다.
필기 인식의 주요 이정표는 다음과 같다.
연도 | 사건 |
---|---|
1915년 | 미국에서 스타일러스를 사용한 필기체 인식 사용자 인터페이스 특허 성립[31][32] |
1957년 | 톰 다이몬드(Tom Dimond)가 컴퓨터 입력 장치로 필기체 인식 가능한 전자식 태블릿 Stylator 공개[33] |
1961년 | RAND Tablet 발명[34][35] |
1962년 | 필기체 인식[36] |
1969년 | 전자 잉크 디스플레이와 제스처 명령을 채용한 필기체 인식 시스템 GRAIL[37] |
1973년 | Applicon CAD/CAM 시스템, Ledeen의 필기체 인식 시스템 채용[38][39] |
1980년대 | Pencept[24] 와 CIC[25], 일반 PC 시장용 필기체 인식 시스템 출시. Cadre System은 Inforite POS 단말기에 필기체 인식 기능 탑재[40] |
1989년 | GRiD Systems의 휴대형 필기체 인식 컴퓨터 GRiDPad[41] |
4. 1. 초기 상용 제품
키보드 입력의 대안으로 필기 인식 기술을 채택한 상용 제품은 1980년대 초에 등장했다. 초기 필기 입력 단말 제품으로는 Pencept Penpad[7] 및 Inforite의 POS 단말[8] 등이 있다. 개인용 컴퓨터가 거대한 소비자 시장을 형성하면서, 키보드와 마우스의 대안으로 PenCept[9], CIC[10] 등에서 필기 인식 시스템이 출시되었다.4. 2. 태블릿 컴퓨터와 PDA
1990년대 초, NCR, IBM, EO 등은 GO사의 PenPoint OS를 탑재한 태블릿 컴퓨터를 출시했다.[13] PenPoint는 필기 인식과 제스처 기능을 제공했으며, IBM의 ThinkPad는 자체 필기 인식 기술을 사용했다. 이들은 마이크로소프트의 Windows for Pen Computing과 IBM의 Pen for OS/2로 이식되었으나, 상업적으로 성공하지 못했다.[13]전자 기술의 발전으로 필기 인식은 PDA에 자주 사용되었다. Apple Computer의 뉴턴은 필기 입력을 제공한 최초의 PDA였으나, 소프트웨어 신뢰성 문제로 상업적으로 실패했다.[13] 이후 Newton OS 2.0에서 필기 인식이 개선되었지만, 부정적인 첫인상을 극복하지 못했다. Apple Newton 단종 후, 이 기능은 Mac OS X 10.2 이상에 Inkwell로 통합되었다.
Palm, Inc.은 Graffiti 인식 시스템 기반의 PDA를 출시했다.[13] Graffiti는 한 번의 획으로 문자를 정의하여 사용성을 높였으나, 획 패턴을 암기해야 했다. Graffiti는 제록스 특허 침해 문제로 CIC 필기 인식 라이선스 버전으로 대체되었다. 관련 특허 소송은 항소를 거듭하며 진행되었고, 결국 당사자 간 합의로 마무리되었다.[13]
4. 2. 1. 대한민국 내 사례
샤프는 Apple Computer과의 제휴를 통해 뉴턴 OS를 탑재한 PDA의 하드웨어를 제조했다. 샤프는 뉴턴 OS의 일본어 로컬라이제이션을 진행하여 일본 국내에서 판매하는 것을 검토했지만, 뉴턴의 상업적 실패가 명확해지자 독자 노선으로 방향을 전환했다. 샤프는 자사가 제조, 판매하던 전자 수첩을 확장하여 뉴턴과 같은 펜 조작에 의한 UI를 도입했다. 자사 브랜드의 PDA "PI-3000"은 일본 국내에서 동종 상품으로서는 이례적인 히트를 기록했다.[13] 샤프는 이 PDA에 자우루스라는 애칭을 붙여 시리즈화했으며, 수 차례의 아키텍처 변경을 거쳐 오늘날까지 판매가 이어지고 있다. 필기 인식 엔진은 매년 개선되어 어느 정도의 악필이나 흘림체에도 정확도는 낮지만 인식이 가능했다 (다만, 필기 순서를 틀리면 현저하게 정확도가 떨어지는 경우가 있었다). 인식에 소요되는 시간은 다소 길어서, 빠른 입력은 어려웠다.4. 3. 발전과 현재
전자 기술의 발전으로 필기 인식을 위한 컴퓨팅 파워가 향상되어, 태블릿 컴퓨터보다 작은 폼 팩터에도 적용 가능하게 되었다. 이에 따라 필기 인식은 휴대용 PDA의 입력 방법으로 자주 사용되었다. 필기 입력을 제공하는 최초의 PDA는 애플 뉴턴이었으며, 사용자 인터페이스의 간소화라는 이점을 대중에게 알렸다. 그러나 이 장치는 사용자의 필기 패턴을 학습하는 소프트웨어의 신뢰성 부족으로 인해 상업적으로 큰 성공을 거두지는 못했다. Newton OS 2.0이 출시되면서 필기 인식이 크게 개선되었고, 모드리스 오류 수정과 같은 현재의 인식 시스템에서는 아직 발견되지 않은 고유한 기능이 포함되었지만, 이미 대중들에게 부정적인 첫인상이 만들어진 후였다. Apple Newton이 단종된 후, 이 기능은 Mac OS X 10.2 이상에 Inkwell로 통합되었다.[13]팜은 Graffiti 인식 시스템을 기반으로 하는 성공적인 PDA 시리즈를 출시했다. Graffiti는 각 문자에 대해 "unistrokes" 또는 한 번의 획 형태로 정의하여 사용성을 향상시켰다. 이것은 오류 입력 가능성을 좁혔지만, 획 패턴을 암기해야 했기에 사용자의 학습 곡선을 증가시켰다. Graffiti 필기 인식은 Xerox가 보유한 특허를 침해하는 것으로 밝혀졌고, 팜은 Xerox 특허보다 먼저 나온 CIC 필기 인식의 라이선스 버전을 Graffiti로 대체했다. 침해에 대한 법원 판결은 항소에서 뒤집혔고, 나중의 항소에서 다시 뒤집혔다. 관련된 당사자들은 이 특허 및 기타 특허에 대한 합의를 협상했다.
태블릿 PC는 디지타이저 태블릿과 스타일러스를 갖춘 노트북 컴퓨터로, 사용자가 장치 화면에 텍스트를 손으로 쓸 수 있게 하였다. 운영 체제는 필기를 인식하여 텍스트로 변환한다. Windows Vista 및 Windows 7에는 영어, 일본어, 중국어 번체, 중국어 간체 및 한국어에 대한 사용자의 필기 패턴 또는 어휘를 학습하는 개인 설정 기능이 포함되어 있다. 이 기능에는 사용자의 필기 샘플을 요청하고 이를 사용하여 더 높은 정확도로 인식을 위해 시스템을 재교육하는 "개인 설정 마법사"가 포함되어 있다. 이 시스템은 PDA용 Windows Mobile OS에서 사용되는 덜 발전된 필기 인식 시스템과는 구별된다.
필기 인식은 대중이 익숙해진 입력 형태이지만, 데스크톱 컴퓨터나 랩톱에서 널리 사용되지는 않았다. 여전히 키보드 입력이 더 빠르고 신뢰할 수 있다고 일반적으로 받아들여진다.
1990년대 초, 파라그래프 인터내셔널(ParaGraph International)과 렉시커스(Lexicus)라는 두 회사가 필기체 인식 시스템을 개발했다. 파라그래프는 러시아에 본사를 두고 컴퓨터 과학자 스테판 파치코프가 설립했으며, 렉시커스는 론존 나그와 스탠퍼드 대학교 학생들이었던 크리스 코르티가 설립했다. 파라그래프의 CalliGrapher 시스템은 애플 뉴턴 시스템에 탑재되었고, 렉시커스의 Longhand 시스템은 PenPoint 및 Windows 운영 체제에서 상용으로 제공되었다. 렉시커스는 1993년 모토로라에 인수되었고, 이후 모토로라를 위해 중국어 필기 인식 및 예측 텍스트 시스템을 개발했다. 파라그래프는 1997년 SGI에 인수되었고, 필기 인식 팀은 P&I 부서를 결성했으며, 나중에 바뎀이 SGI로부터 인수했다. 마이크로소프트는 1999년 바뎀으로부터 P&I가 개발한 CalliGrapher 필기 인식 및 기타 디지털 잉크 기술을 인수했다.
마이크로소프트의 태블릿 PC용 OS(Windows XP Tablet PC Edition, Windows Vista, Windows 7) 등은 "Inferno"라고 불리는 지연 시간 신경망 (TDNN) 분류기를 채용하고 있으며, 마이크로소프트가 직접 개발했다. Newton OS 2.0에서 사용되었던 필기 인식 시스템을 1999년에 ParaGraph International로부터 마이크로소프트가 라이선스 제공을 받은 CalliGrapher도 TDNN과 함께 두 번째 인식 엔진이 되었다.
볼프람 매스매티카(8.0 이상) 역시 필기 또는 텍스트 인식 기능인 TextRecognize를 제공한다.
- CellWriter[27]는 Linux용 오픈 소스 필기 인식 프로그램이다. 미네소타 대학교의 Undergraduate Research Opportunity Program[28]의 일환으로 Michael Levin 등이 개발했다. CellWriter는 필기자의 습관을 학습하는 방식이며, 사용 전에 훈련을 필요로 한다.
4. 3. 1. 스마트폰 및 태블릿에서의 활용
현재 스마트폰과 태블릿에서는 소프트웨어 키보드가 주류 입력 방식이지만, 필기 인식 기능도 꾸준히 활용되고 있다.[29] 과거 Windows Mobile을 채택한 PDA는 Palm에게서 고객을 빼앗아 일정 점유율을 확보했지만, 새로운 수요를 창출하지는 못했다. 기준으로, 많은 PDA가 필기 입력을 제공하며 때로는 자연스러운 필기체를 허용하기도 하지만 정확성은 여전히 문제이며, 일부 사람들은 간단한 온 스크린 키보드조차도 더 효율적이라고 생각한다.5. 연구 동향
필기 인식은 학계에서 활발하게 연구되고 있는 분야이다. 짝수 해에는 국제 필기 인식 프론티어 컨퍼런스(ICFHR)가, 홀수 해에는 국제 문서 분석 및 인식 컨퍼런스(ICDAR)가 주요 학술대회로 개최된다. 두 컨퍼런스 모두 IEEE와 IAPR의 후원을 받는다. 2021년 ICDAR 논문집은 LNCS, 스프링거에서 출판될 예정이다.
5. 1. 주요 연구 분야
- 온라인 인식
- 오프라인 인식
- 서명 검증
- 우편 주소 해석
- 수표 처리
- 필자 인식
5. 2. 인공지능 기반 연구
2009년 이후, IDSIA의 위르겐 슈미트후버 연구 그룹에서 개발된 순환 신경망과 심층 피드포워드 신경망은 여러 국제 필기 인식 대회에서 우승했다.[14] 특히, Alex Graves 외 연구진의 양방향 및 다차원 장단기 기억(LSTM)[15][16]은 2009년 국제 문서 분석 및 인식 컨퍼런스 (ICDAR)에서 연결된 필기 인식 부문에서 세 개의 대회를 석권했으며, 학습해야 할 세 개의 서로 다른 언어(프랑스어, 아랍어, 페르시아어)에 대한 사전 지식이 전혀 없었다. IDSIA의 Dan Ciresan과 동료들이 개발한 최근의 GPU 기반 딥 러닝 피드포워드 네트워크 방법은 ICDAR 2011 오프라인 중국어 필기 인식 대회에서 우승했으며, 그들의 신경망은 또한 NYU의 얀 르쿤과 동료들이 만든 유명한 MNIST 필기 숫자 문제에서 인간과 경쟁할 만한 성능을 달성한 최초의 인공 패턴 인식기였다.[17][18]워릭 대학교의 Benjamin Graham은 (2017년까지) "희소 컨볼루션 신경망"으로 발전한 컨볼루션 신경망에 대한 접근 방식을 사용하여 2013년 중국어 필기 인식 대회에서 2.61%의 오류율로 우승했다.[19][20] 인공 신경망 기반 인식 엔진은 먼저 훈련용 이미지 집합으로 학습한다. 그리고 훈련된 네트워크를 사용하여 문자를 인식한다. 인공 신경망은 각각의 훈련 이미지를 구별하는 속성을 학습하며, 인식 대상 이미지에 유사한 속성이 있는지 찾는다. 인공 신경망은 설정이 간단하지만, 인식 대상과 경향이 다른 훈련 이미지밖에 주어지지 않으면 인식률이 낮아진다.
참조
[1]
서적
Mustererkennung 1999 : 21. DAGM-Symposium Bonn, 15.-17. September 1999
https://www.worldcat[...]
Springer Berlin Heidelberg
1999
[2]
서적
Mensch-maschine-kommunikation : grundlagen von sprach- und bildbasierten benutzerschnittstellen
https://www.worldcat[...]
Springer
2010
[3]
웹사이트
Java OCR
https://sourceforge.[...]
2010-06-05
[4]
논문
Are Multidimensional Recurrent Layers Really Necessary for Handwritten Text Recognition?.
IEEE
2017
[5]
논문
Preprocessing Techniques for Online Handwriting Recognition. Intelligent Text Categorization and Clustering
Springer Berlin Heidelberg
2009
[6]
간행물
On Using Entropy for Enhancing Handwriting Preprocessing
http://www.mdpi.com/[...]
2012
[7]
간행물
Pencept Penpad (TM) 200 Product Literature
http://users.erols.c[...]
Pencept, Inc.
1982-08-15
[8]
간행물
Inforite Hand Character Recognition Terminal
http://users.erols.c[...]
Cadre Systems Limited, England
1982-08-15
[9]
간행물
Users Manual for Penpad 320
http://users.erols.c[...]
Pencept, Inc.
1984-06-15
[10]
간행물
Handwriter (R) GrafText (TM) System Model GT-5000
http://users.erols.c[...]
Communication Intelligence Corporation
1985-01-15
[11]
서적
Computer
https://www.google.c[...]
Reaktion Books
2010
[12]
서적
Beyond Eureka!: The Rocky Roads to Innovating
https://www.google.c[...]
Georgetown University Press
2024
[13]
기타
Guberman is the inventor of the handwriting recognition technology used today by Microsoft in Windows CE.
IQT
[14]
웹사이트
2012 Kurzweil AI Interview with Jürgen Schmidhuber on the eight competitions won by his Deep Learning team 2009-2012
http://www.kurzweila[...]
[15]
논문
Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks
Neural Information Processing Systems (NIPS) Foundation
2009
[16]
논문
A Novel Connectionist System for Improved Unconstrained Handwriting Recognition
2009
[17]
논문
Multi-column Deep Neural Networks for Image Classification
2012
[18]
논문
Gradient-based learning applied to document recognition
1998
[19]
뉴스
Sparse Networks Come to the Aid of Big Physics
https://www.quantama[...]
2023-06
[20]
논문
Spatially-sparse convolutional neural networks
2014
[21]
웹사이트
Java OCR
https://sourceforge.[...]
2010-06-05
[22]
간행물
Pencept Penpad (TM) 200 Product Literature
http://rwservices.no[...]
Pencept, Inc.
1982-08-15
[23]
간행물
Inforite Hand Character Recognition Terminal
http://rwservices.no[...]
Cadre Systems Limited, England
1982-08-15
[24]
간행물
Users Manual for Penpad 320
http://users.erols.c[...]
Pencept, Inc.
1984-06-15
[25]
간행물
Handwriter (R) GrafText (TM) System Model GT-5000
http://rwservices.no[...]
Communication Intelligence Corporation
1985-01-15
[26]
웹사이트
CalliGrapher
http://www.phatware.[...]
[27]
웹사이트
CellWriter
http://risujin.org/c[...]
[28]
웹사이트
Undergraduate Research Opportunity Program
http://www.urop.umn.[...]
[29]
웹사이트
MyScript Builder ソフトウェア開発キット
http://www.visionobj[...]
[30]
간행물
Anoto Technology: Digital Pen and Paper
http://www.anoto.com
Anoto Group AB
[31]
간행물
Controller
http://users.erols.c[...]
United States Patent 1,116,663
1915-12-28
[32]
간행물
Controller
http://www.freepaten[...]
United States Patent 1,117,184 (full image)
1915-12-28
[33]
간행물
Devices for reading handwritten characters
http://rwservices.no[...]
Proceedings of Eastern Joint Computer Conference
1957-12-01
[34]
간행물
RAND Tablet
http://users.erols.c[...]
1961-09-01
[35]
간행물
50 Years of Looking Forward
http://www.rand.org/[...]
RAND Corporation
1998-09-01
[36]
간행물
Handwriting reader recognizes whole words
http://users.erols.c[...]
Electronics, Vol 35, August 1962
1962-08-01
[37]
간행물
The GRAIL Project: An Experiment in Man-Machine Communications
http://users.erols.c[...]
The RAND Corporation, RM-5999-ARPA, Santa Monica, California, September 1969
1969-09-01
[38]
간행물
Computerized Graphic Processing System: System User's Manual
http://users.erols.c[...]
Applicon Incorporated
1973-09-01
[39]
간행물
The Ledeen Character Recognizer
http://users.erols.c[...]
Principles of Interactive Computer Graphics, McGraw-Hill
1973-09-01
[40]
간행물
Inforite Hand Character Recognition Terminal
http://users.erols.c[...]
Cadre Systems Limited, England
1982-08-15
[41]
간행물
The BYTE Awards: GRiD System's GRiDPad
http://rwservices.no[...]
BYTE Magazine, Vol 15. No 1
1990-01-12
[42]
웹사이트
HWR
http://acronyms.thef[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com