테서랙트

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

테서랙트는 1985년부터 1994년까지 휴렛 팩커드 연구소에서 개발된 광학 문자 인식(OCR) 엔진으로, 1996년 윈도우, 1998년 C++로 이식되었다. 2005년 오픈 소스로 공개되었으며, 구글의 후원을 받아 개발이 지속되고 있다. 4 버전에서는 LSTM 기반 OCR 엔진과 다수의 언어 및 스크립트 모델이 추가되어 116개의 언어와 37개의 문자 체계를 지원하며, 2021년 5 버전이 출시되었다. 테서랙트는 1995년 문자 정확도 측면에서 상위 3위 안에 드는 OCR 엔진이었으며, 리눅스, 윈도우, macOS에서 사용 가능하다. 초기에는 영어 텍스트만 인식했지만, 버전이 거듭되면서 지원 언어가 확대되었고, 오른쪽에서 왼쪽으로 쓰는 텍스트, 인도어 스크립트, CJK 문자도 처리할 수 있다. 테서랙트는 명령행 인터페이스를 사용하며, OCRFeeder, gImageReader와 같은 GUI를 제공하는 별도의 프로젝트가 존재한다.

테서랙트 - [IT 관련 정보]에 관한 문서

기본 정보

이미지 준비중입니다.

Tesseract 4.1.1로 이미지를 읽는 모습

개발자	레이 스미스, 휴렛 팩커드
개발	구글 및 기타
프로그래밍 언어	C, C++
운영 체제	리눅스, 윈도우, macOS
인터페이스 언어	영어
인식 가능 언어	아프리칸스어, 알바니아어, 아랍어, 아제르바이잔어, 바스크어, 벨라루스어, 벵골어, 불가리아어, 카탈루냐어, 체코어, 체로키어, 크로아티아어, 덴마크어, 네덜란드어, 영어, 에스페란토어, 에스토니아어, 핀란드어, 프랑스어, 갈리시아어, 독일어, 그리스어, 힌디어, 히브리어, 헝가리어, 인도네시아어, 이탈리아어, 일본어, 칸나다어, 한국어, 라트비아어, 리투아니아어, 말라얄람어, 마케도니아어, 몰타어, 말레이어, 노르웨이어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 세르비아어, 슬로바키아어, 슬로베니아어, 스페인어, 스와힐리어, 스웨덴어, 타갈로그어, 타밀어, 텔루구어, 태국어, 터키어, 우크라이나어, 베트남어 (포함된 훈련 파일을 사용하여 추가 가능)
종류	광학 문자 인식
라이선스	Apache License 2.0
웹사이트	Tesseract 공식 웹사이트

📚 더 읽어볼만한 페이지

광학 문자 인식 - 자동 번호판 인식
광학 문자 인식 - 광학 마크 인식
광학 마크 인식(OMR)은 광학적으로 마크 유무를 감지하여 데이터를 입력하는 기술로, 시험 채점, 설문 조사 등에 활용되며 OMR 소프트웨어 발전을 통해 데이터 처리가 빨라지고 정확해지고 있다.
C로 작성된 자유 소프트웨어 - PostgreSQL
PostgreSQL은 캘리포니아 대학교 버클리 분교의 Ingres 프로젝트에서 시작되어 전 세계 개발자들의 협력을 통해 발전해온 객체 관계형 데이터베이스 관리 시스템(ORDBMS)이다.
C로 작성된 자유 소프트웨어 - 김프
김프(GIMP)는 GNU 프로젝트에서 개발된 크로스 플랫폼 기반의 무료 오픈소스 래스터 그래픽 편집기로, 다양한 운영체제를 지원하며 풍부한 기능을 제공하지만 사용자 인터페이스에 대한 비판과 일부 기능의 부족함에 대한 평가도 존재한다.
아파치 라이선스 소프트웨어 - 안드로이드 (운영체제)
구글이 개발한 리눅스 커널 기반의 모바일 운영체제인 안드로이드는 오픈소스 플랫폼으로 다양한 기기에서 활용되며 세계적으로 널리 사용되지만, 개인정보 보호 문제와 독점적 지위 남용 논란 등의 비판도 존재한다.
아파치 라이선스 소프트웨어 - 쿠버네티스
쿠버네티스는 컨테이너화된 애플리케이션을 자동으로 배포, 스케일링, 관리하는 오픈 소스 시스템으로, 구글의 Borg 시스템에서 영감을 받아 설계되었으며 파드, 서비스 등의 기능을 제공하여 클라우드 네이티브 환경에서 중요한 역할을 한다.

1. 개요
2. 역사
3. 특징
4. 사용자 인터페이스
5. 평가
- 5.1. 리눅스 저널 (2007)
- 5.2. 인터넷 아카이브 (2020)

2. 역사

테서랙트 엔진은 1985년부터 1994년까지 영국 브리스톨과 미국 콜로라도 그릴리에 있는 휴렛 팩커드(HP) 연구소에서 독점 소프트웨어로 개발되었다. 1996년에는 윈도우로 이식되었고, 1998년에는 C에서 C++로 부분적으로 변경되었다. 코드 대부분은 C로 작성되었고, 일부는 C++로 작성되었다. 그 이후 모든 코드는 최소한 C++ 컴파일러로 컴파일되도록 변환되었다. 이후 10년 동안은 거의 작업이 이루어지지 않았다. 2005년 휴렛 팩커드와 네바다 대학교 라스베이거스(UNLV)에 의해 오픈 소스로 공개되었고, 2006년부터 구글이 개발을 후원하고 있다.

테서랙트 4 버전은 LSTM 기반의 OCR 엔진과 모델을 추가하여 총 116개의 언어를 지원하며, 37개의 문자 체계를 지원한다. 테서랙트 5 버전은 2년 이상의 테스트와 개발을 거쳐 2021년에 출시되었다.

2.1. 초기 개발 (1985년 ~ 1994년)

테서랙트 엔진은 1985년부터 1994년까지 영국 브리스톨과 미국 콜로라도 그릴리에 있는 휴렛 팩커드(HP) 연구소에서 독점 소프트웨어로 개발되었다. 1996년에는 윈도우로 이식되었고, 1998년에는 C에서 C++로 부분적으로 변경되었다. 대부분의 코드는 C로 작성되었고, 일부는 C++로 작성되었다. 그 이후 모든 코드는 최소한 C++ 컴파일러로 컴파일되도록 변환되었다. 이후 10년 동안은 거의 작업이 이루어지지 않았다.

2.2. 오픈 소스 공개 및 구글 후원 (2005년 ~ 현재)

테서랙트 엔진은 1985년부터 1994년까지 영국 브리스틀과 미국 콜로라도 그릴리에 있는 휴렛 팩커드(HP) 연구소에서 독점 소프트웨어로 개발되었다. 1996년에는 윈도우로 이식되었고, 1998년에는 C에서 C++로 부분 전환되었다. 코드 대부분은 C로 작성되었고, 일부는 C++로 작성되었다. 이후 모든 코드는 C++ 컴파일러로 컴파일되도록 변환되었다.

이후 10년 동안 거의 작업이 이루어지지 않다가, 2005년 휴렛 팩커드와 네바다 대학교 라스베이거스(UNLV)에 의해 오픈 소스로 공개되었다. 2006년부터 구글이 테서랙트 개발을 후원하고 있다.

2.3. 버전별 발전

테서랙트 버전 4는 LSTM 기반의 OCR 엔진과 모델을 추가하여 총 116개의 언어를 지원한다. 또한 37개의 문자 체계를 지원하여, 작성된 스크립트를 통해 언어를 인식할 수 있다.

테서랙트 엔진은 1985년부터 1994년까지 영국 브리스틀, 미국 콜로라도 그릴리에 위치한 휴렛 팩커드(Hewlett-Packard) 연구소에서 독점 소프트웨어로 개발되었다. 1996년에는 윈도우로 이식되었고, 1998년에는 C에서 C++로 부분 마이그레이션되었다. 코드 대부분은 C로 작성되었고, 일부는 C++로 작성되었다. 이후 모든 코드는 C++ 컴파일러로 변환되었다. 10년 동안 거의 작업이 이루어지지 않다가, 2005년 휴렛 팩커드와 네바다 대학교 라스베이거스(UNLV)에 의해 오픈 소스로 공개되었다. 테서랙트 개발은 2006년부터 구글(Google)의 후원을 받고 있다.

버전 5는 2년 이상의 테스트와 개발을 거쳐 2021년에 출시되었다.

3. 특징

테서랙트는 백엔드로 사용하기에 적합하며, OCRopus와 같은 프론트엔드를 사용하여 레이아웃 분석을 포함한 더 복잡한 OCR 작업에 사용할 수 있다.

입력 이미지가 테서랙트에 맞게 사전 처리되지 않으면 테서랙트의 출력 품질이 매우 낮아진다. 이미지(특히 스크린샷)는 텍스트 x-높이가 최소 20픽셀이 되도록 확대해야 하고, 모든 회전이나 기울기는 수정해야 하며, 그렇지 않으면 텍스트가 인식되지 않는다. 밝기의 저주파수 변화는 하이패스 필터로 처리해야 하거나 테서랙트의 이진화 단계에서 페이지의 대부분이 파괴되고, 어두운 테두리는 수동으로 제거해야 한다. 그렇지 않으면 문자로 잘못 해석될 것이다.

3.1. 정확도 및 지원 플랫폼

테서랙트는 1995년 문자 정확도 측면에서 상위 3위 안에 드는 OCR 엔진이었다. 리눅스, 윈도우, macOS에서 사용할 수 있다. 그러나 제한된 리소스로 인해 Windows 및 Ubuntu에서 개발자가 엄격하게 테스트한다.

3.2. 버전별 기능

테서랙트 버전 2까지는 간단한 단일 열 텍스트의 TIFF 이미지만 입력할 수 있었다. 이 초기 버전에는 레이아웃 분석 기능이 없어, 여러 열로 된 텍스트, 이미지, 수식 등을 입력하면 제대로 된 출력을 얻을 수 없었다.

버전 3.00부터는 출력 텍스트 형식, hOCR 위치 정보, 페이지 레이아웃 분석 기능을 지원하기 시작했다. Leptonica 라이브러리를 통해 다양한 이미지 형식도 지원하게 되었다. 또한, 테서랙트는 텍스트가 고정폭인지, 비례 간격인지 감지할 수 있게 되었다.

초기 버전의 테서랙트는 영어 텍스트만 인식할 수 있었으나, 버전 2에서는 6개의 서양 언어(프랑스어, 이탈리아어, 독일어, 스페인어, 브라질 포르투갈어, 네덜란드어)를 추가로 지원하게 되었다.

버전 3에서는 상형 문자(중국어, 일본어)와 오른쪽에서 왼쪽으로 쓰는 언어(아랍어, 히브리어 등)를 포함하여 지원 언어가 대폭 확대되었다. 아랍어, 불가리아어, 카탈루냐어, 중국어(간체 및 번체), 크로아티아어, 체코어, 덴마크어, 독일어(프락투어 스크립트), 그리스어, 핀란드어, 히브리어, 힌디어, 헝가리어, 인도네시아어, 일본어, 한국어, 라트비아어, 리투아니아어, 노르웨이어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 세르비아어, 슬로바키아어(표준 및 프락투어 스크립트), 슬로베니아어, 스웨덴어, 타갈로그어, 타밀어, 태국어, 터키어, 우크라이나어, 베트남어가 새롭게 지원되었다.

2015년 7월 출시된 버전 3.04에서는 39개의 언어/스크립트 조합이 추가되어 총 100개 이상의 언어를 지원하게 되었다. 추가된 언어 코드는 amh(암하라어), asm(아삼어), aze_cyrl(키릴 문자 아제르바이잔어), bod(티베트어), bos(보스니아어), ceb(세부아노어), cym(웨일스어), dzo(종카어), fas(페르시아어), gle(아일랜드어), guj(구자라트어), hat(아이티어 및 아이티 크리올어), iku(이누이트어), jav(자바어), kat(조지아어), kat_old(구 조지아어), kaz(카자흐어), khm(중앙 크메르어), kir(키르기스어), kur(쿠르드어), lao(라오어), lat(라틴어), mar(마라티어), mya(미얀마어), nep(네팔어), ori(오리야어), pan(펀자브어), pus(파슈토어), san(산스크리트어), sin(신할라어), srp_latn(라틴 문자 세르비아어), syr(시리아어), tgk(타지크어), tir(티그리냐어), uig(위구르어), urd(우르두어), uzb(우즈베크어), uzb_cyrl(키릴 문자 우즈베크어), yid(이디시어)이다.

버전 4.0부터는 기존 인식 엔진에 LSTM 기반 신경망 OCR 엔진이 추가되었고, 다양한 언어 및 스크립트용 모델이 추가되어 총 116개 언어를 지원하게 되었다. 또한, 37개 언어의 스크립트를 지원하여 해당 스크립트로 작성된 언어를 인식할 수 있다.

테서랙트는 다른 언어로 작동하도록 훈련할 수 있다.

테서랙트는 아랍어, 히브리어와 같이 오른쪽에서 왼쪽으로 쓰는 텍스트, 많은 인도 문자, CJK(중국어, 일본어, 한국어)를 상당히 잘 처리할 수 있다. 레이 스미스가 DAS 2016(산토리니)에서 발표한 테서랙트 튜토리얼에서 정확도 관련 내용을 확인할 수 있다.

3.3. 다국어 지원

테서랙트의 초기 버전은 영어만 인식할 수 있었다.

테서랙트 v2는 6개의 서구 언어(프랑스어, 이탈리아어, 독일어, 스페인어, 브라질 포르투갈어, 네덜란드어)를 추가했다.

버전 3은 표의 문자 (중국어 및 일본어)와 오른쪽에서 왼쪽으로 쓰는 텍스트(예: 아랍어, 히브리어) 및 기타 여러 언어를 지원했다.

V3.04에서는 39개의 언어와 스크립트 조합이 추가되어, 총 100개 이상의 언어를 지원하게 되었다. 이 버전에는 한국어도 포함되어 있다.

3.4. 한계 및 개선점

테서랙트의 출력 품질은 입력 이미지가 적절하게 전처리되지 않으면 매우 낮아진다. 텍스트의 x-높이가 최소 20픽셀 이상이 되도록 이미지(특히 스크린샷)의 크기를 조정해야 한다. 회전이나 기울어짐을 수정해야 하며, 그렇지 않으면 텍스트가 인식되지 않는다. 저주파수의 밝기 변화는 하이패스 필터로 제거해야 하고, 어두운 테두리는 수동으로 제거해야 한다. 그렇지 않으면 어두운 테두리가 문자로 잘못 해석될 수 있다.

4. 사용자 인터페이스

테서랙트는 명령행 인터페이스에서 실행된다. GUI는 제공되지 않지만, OCRFeeder와 같은 GUI를 제공하는 별도의 프로젝트가 많이 있다. 크로스 플랫폼 오픈 소스 GUI로는 gImageReader [https://github.com/manisandro/gImageReader]가 있다.

5. 평가

리눅스 저널과 인터넷 아카이브는 테서랙트에 대해 긍정적인 평가를 내렸다. 리눅스 저널의 앤서니 케이는 2007년 7월 기사에서 "뛰어난 작업을 수행하는 기발한 명령 줄 도구"라고 평가했으며, 인터넷 아카이브의 브루스터 칼레는 2020년 11월에 테서랙트가 지난 몇 년 동안 큰 발전을 이루었다고 언급했다.

5.1. 리눅스 저널 (2007)

리눅스 저널의 앤서니 케이는 2007년 7월 테서랙트에 대한 기사에서 "뛰어난 작업을 수행하는 기발한 명령 줄 도구"라고 평가했다. 그는 "테서랙트는 기본 OCR 엔진이다. 빌드 프로세스는 다소 기발하고 엔진에는 레이아웃 감지와 같은 몇 가지 추가 기능이 필요하지만 핵심 기능인 텍스트 인식은 오픈 소스 커뮤니티에서 시도한 것보다 훨씬 뛰어나다. GIMP 및 Netpbm과 같은 일부 이미지 도구와 스캐너를 사용하면 뛰어난 인식률을 얻는 것이 상당히 쉽다."라고 언급했다.

5.2. 인터넷 아카이브 (2020)

인터넷 아카이브의 브루스터 칼레는 테서랙트가 지난 몇 년 동안 큰 발전을 이루었다고 평가했다. 그는 이전에는 독점 OCR 엔진만큼 좋지 않았지만, 자체 평가 결과 성능이 동등하게 좋아졌으며, 새로운 아키텍처 덕분에 응용 프로그램에 더욱 적합해졌다고 언급했다.