구글 번역
1. 개요
구글 번역은 구글이 2006년 4월에 출시한 웹 기반 무료 번역 서비스이다. 단어, 구절, 웹페이지 등 다양한 형태의 텍스트와 미디어를 번역하며, 초기에는 통계적 기계 번역(SMT) 방식을 사용했다. 2010년 안드로이드 앱, 2011년 iOS 버전을 출시했고, 2016년에는 신경망 기계 번역(GNMT) 시스템으로 전환하여 번역 품질을 향상시켰다. 2024년에는 PaLM 2 AI 모델을 통해 110개의 언어가 추가되어, 249개의 언어, 방언 및 언어 변종을 지원한다. 구글 번역은 텍스트, 웹페이지, 문서, 음성, 이미지 번역 등 다양한 기능을 제공하며, 모바일 앱으로도 이용 가능하다. 하지만 구글 번역은 정확도, 특히 다의어 처리와 문법 오류에서 한계를 보이며, 잦은 오류와 이상한 번역으로 비판을 받기도 한다.
| 이름 | 구글 번역 |
|---|
| 웹사이트 주소 | 구글 번역 웹사이트 |
|---|---|
| 상업 여부 | 예 |
| 유형 | 신경망 기계 번역 |
| 가입 | 선택 사항 |
| 언어 | 다국어 (지원 언어 목록은 하단 참조) |
| 사용자 수 | 매일 5억 명 이상 |
| 소유자 | 구글 |
| 출시일 (통계 기반 기계 번역) | 2006년 4월 28일 |
| 출시일 (신경망 기계 번역) | 2016년 11월 15일 |
| 현재 상태 | 운영 중 |
| 지원 언어 수 | 110개 이상 (2024년 6월 기준) |
|---|
| 개발자 | 구글 |
|---|
| 주요 기능 | 텍스트 번역 웹사이트 번역 문서 번역 이미지 번역 음성 번역 실시간 대화 번역 필기 입력 번역 오프라인 번역 단어장 저장 기능 |
|---|
| 번역 방식 | 신경망 기계 번역 (초기에는 통계 기반 기계 번역 사용) |
|---|---|
| 번역 정확도 | 지속적인 개선 중 |
| 다국어 지원 | 다양한 언어 쌍 지원 |
| 번역 품질 문제 | 일부 언어 번역 품질 논란, 문맥 이해 부족 지적 |
|---|---|
| 영어 중심 번역 | 여러 언어 쌍에서 영어 경유 번역 문제 지적 |
-
구글 번역 -
구글 번역사 도구함
구글 번역사 도구함은 다양한 입력 방식을 통해 번역을 지원하고, 번역 메모리, 용어집, 기계 번역 제안 등을 활용하여 품질을 향상시키며, 협업 기능을 제공하고, API를 통해 개발자 지원을 하지만, 산업 번역에서는 데이터 보안에 유의해야 하는 구글의 서비스이다. -
기계 번역 소프트웨어 -
마이크로소프트 번역기
마이크로소프트 번역기는 클라우드 기반 기계 번역 서비스로, 신경망 기계 번역을 기반으로 100개 이상의 언어 간 실시간 번역, 텍스트/음성 번역, 사용자 지정 번역 시스템 구축, 실시간 대화 번역 기능 및 다양한 마이크로소프트 제품과의 통합을 제공하며, 사용자 피드백 기반 협업 번역과 Microsoft Translator Hub를 통해 번역 품질 개선 및 소멸 위기 언어 보존에 기여한다. -
기계 번역 소프트웨어 -
Apertium
Apertium은 알리칸테 대학교 OpenTrad 프로젝트에서 개발된 기계 번역 엔진으로, 다양한 언어 쌍을 지원하며 여러 기관과 협력하고 오픈 소스 프로젝트에도 참여하여 사용자에게 서비스를 제공한다. -
번역 웹사이트 -
마이크로소프트 번역기
마이크로소프트 번역기는 클라우드 기반 기계 번역 서비스로, 신경망 기계 번역을 기반으로 100개 이상의 언어 간 실시간 번역, 텍스트/음성 번역, 사용자 지정 번역 시스템 구축, 실시간 대화 번역 기능 및 다양한 마이크로소프트 제품과의 통합을 제공하며, 사용자 피드백 기반 협업 번역과 Microsoft Translator Hub를 통해 번역 품질 개선 및 소멸 위기 언어 보존에 기여한다. -
번역 웹사이트 -
DeepL
DeepL은 2017년 출시된 인공 신경망 기반의 온라인 번역 서비스로, 텍스트 번역, 텍스트 어조 개선 기능 등을 제공하며, 2024년 9월 기준 30개 이상의 언어를 지원한다.
2. 역사
구글 번역은 2006년 4월 28일에 처음 선보였다. 그 전까지 구글은 바벨피쉬, AOL, 야후 등의 번역 서비스에도 쓰였던 시스트란 기반 번역기를 사용하였다. 그러나 바벨피시 등과 달리, 구글은 시스트란(SYSTRAN)을 사용하지 않고, 통계 기반 기계 번역에 기반한 독자적인 번역 엔진을 사용한다.
구글 번역 엔진은 국제연합 문서 약 200억 단어의 말뭉치를 사용하여 원문과 유엔 번역가의 번역문을 비교 분석하여 유형을 추출하고 번역 전문가 시스템을 구축했다. 구글 크롬에 통합되어 외국어 웹사이트 전체를 자동 번역하는 기능을 갖추고 있다.
모든 언어 간 번역이 가능하지만, 모든 언어가 직접 번역되는 것은 아니며, 영어를 매개로 중역되는 경우가 많다. 어휘력은 뛰어나지만, 프로그램 이름이나 전문 용어 등 특수한 어휘의 오역이 종종 발견되며, 장문의 경우 정확도가 저하되는 경향이 있다.
2016년 신경망 기계 번역으로 번역 알고리즘이 변경되어 번역 정확도가 향상되었다. 이전 알고리즘과 달리 문장을 부분적으로 처리하는 것이 아니라 전체적으로 처리하여 더 정확한 번역어 후보를 제시한다.
2.1. 초기 개발 (2006년 이전)
2006년 4월 28일, 구글 번역 서비스가 처음 선보였다. 그 이전까지 구글은 바벨피쉬, AOL, 야후 등의 번역 서비스에 사용되었던 시스트란 기반 번역기를 사용했다. 그러나 구글은 시스트란을 사용하지 않고, 독자적인 번역 엔진을 개발하여 사용하고 있다.
구글은 통계적 기계 번역 기술을 사용했다. 이 방법은 국제 연합 문서와 유럽 의회의 문서 및 기록을 데이터로 활용했다. 약 200억 단어 분량의 번역된 데이터를 통해 패턴을 찾고, 이를 기반으로 번역 전문가 시스템을 구축했다.
구글 번역의 초기 시스템 원 개발자인 프란츠 요제프 오크(Franz Josef Och)는 규칙 기반 알고리즘보다 통계적 접근 방식을 선호했다.
구글 번역은 한 언어에서 다른 언어로 바로 번역(L1 → L2)하는 것이 아니라, 주로 영어를 거쳐서 대상 언어로 번역(L1 → EN → L2)한다.
2007년 10월 이전에는 아랍어, 중국어, 러시아어를 제외한 다른 언어의 경우, 바벨피시 등 다른 온라인 번역 서비스에서 사용되는 SYSTRAN을 기반으로 했다.
2.2. 서비스 출시 및 발전 (2006년 ~ 2016년)
2006년 4월 28일, 구글 번역은 영어와 프랑스어, 독일어, 스페인어 간의 번역을 지원하는 서비스로 처음 출시되었다. 초기에는 통계적 기계 번역(SMT) 방식을 사용했으며, 입력된 텍스트는 먼저 영어로 번역된 후 선택된 언어로 번역되었다. 이 방식은 예측 알고리즘을 사용했기 때문에 문법적 정확도가 낮았지만, 구글은 언어의 지속적인 변화를 이유로 초기에는 전문가를 고용하여 이 문제를 해결하지 않았다.
2010년 1월, 구글은 휴대용 개인 통역기 역할을 하는 안드로이드용 앱을 출시했고, 2011년 2월에는 iOS 버전도 출시했다. 2010년 2월부터는 크롬과 같은 브라우저에 통합되어 번역된 텍스트를 읽어주고, 사진 속 단어를 인식하며, 낯선 텍스트와 언어를 감지하는 기능이 추가되었다.
2014년 5월, 구글은 시각 및 음성 번역의 품질을 향상시키기 위해 Word Lens를 인수했다. 이를 통해 기기로 텍스트나 사진을 스캔하면 즉시 번역이 가능해졌고, 자동으로 외국어를 식별하고 음성을 번역하는 기능도 향상되었다.
2.3. 신경망 기계 번역 도입 (2016년 ~ 현재)
2016년 11월, 구글은 신경망 기계 번역(GNMT)이라는 시스템으로 번역 방식을 전환했다. 이 시스템은 심층 학습 기술을 사용하여 전체 문장을 한 번에 번역하며, 영어와 프랑스어, 독일어, 스페인어, 중국어 간의 번역에서 정확도가 더 높아진 것으로 측정되었다. 2018년 기준으로 하루 1,000억 개 이상의 단어를 번역한다.
2018년 11월, 웹에서 작동하는 구글 번역의 UI가 머터리얼 디자인으로 개편되었다.
2019년 1월 9일, 비영리 단체 위키미디어 재단은 위키백과 콘텐츠 번역에 구글 번역을 사용할 수 있다고 발표했다. 구글과 위키미디어 재단의 상호 합의에 따라 무상으로 이용할 수 있다.
2022년 10월 3일, 구글은 중국 본토에서 번역 서비스를 종료했다고 발표했다. 이용자가 적었기 때문이라고 밝혔다.
2024년에는 광둥어, 토키 피신어, 바시키르어, 체첸어, 오세티아어, 크림 타타르어를 포함한 러시아의 일부 지역 언어 등 110개 언어가 추가되었다. 이 언어들은 PaLM 2 AI 모델을 통해 추가되었다.
3. 기능
구글 번역은 텍스트, 음성, 이미지, 비디오 등 다양한 형태의 텍스트와 미디어를 번역하는 기능을 제공한다. 주요 기능은 다음과 같다.
* 텍스트 번역: 외국어로 쓰인 단어 또는 텍스트를 번역한다.
* 웹페이지 번역: 웹페이지 전체를 선택한 언어로 번역한다.
* 문서 번역: 사용자가 업로드한 문서를 선택한 언어로 번역한다. 지원 형식은 .doc, .docx, .odf, .pdf, .ppt, .pptx, .ps, .rtf, .txt, .xls, .xlsx이다.
* 음성 번역: 사용자가 말하는 내용을 다른 언어로 즉시 번역한다.
* 모바일 앱 번역: 2018년에 도입된 "탭하여 번역" 기능을 통해 앱을 종료하거나 전환하지 않고도 앱 내에서 즉시 번역이 가능하다.
* 대화 모드: 서로 다른 언어를 사용하는 두 사람 간의 대화를 실시간으로 번역한다.
* 오프라인 번역: 네트워크 연결 없이도 번역할 수 있다.
* 카메라 입력: 카메라로 찍은 문자를 인식하여 번역한다.
* 필기 입력: 손으로 쓴 글씨를 번역한다.
* 이미지 번역: 사진 속 문자를 인식하여 즉시 번역한다.
* 필기 번역: 손으로 쓴 글씨나 가상 키보드로 그린 글씨를 번역한다.
* 다국어 대화 번역: 여러 언어로 이루어진 대화를 번역한다.
* 자막 생성: 다양한 언어의 음성을 자막으로 변환한다.
구글 번역은 안드로이드와 iOS에서 모바일 앱으로도 제공되며, 오프라인 번역 기능을 통해 네트워크 연결 없이도 번역을 지원한다.
3.1. 텍스트 번역
구글 번역의 텍스트 번역은 외국어로 쓰인 단어 또는 텍스트를 번역하는 기능이다. 사용자가 입력한 텍스트를 다른 언어로 번역해 주며, 대부분 발음, 사전, 번역 듣기 기능을 제공한다.
3.2. 웹페이지 번역
구글 번역은 전체 웹페이지를 사용자가 선택한 언어로 번역하는 기능을 제공한다. 사용자가 원본 텍스트에 URL을 입력하면 구글 번역은 해당 웹사이트의 기계 번역으로 연결되는 하이퍼링크를 생성한다.
구글 번역은 일부 웹 브라우저에서 선택적으로 다운로드할 수 있는 확장 기능으로 사용 가능하다. 이 확장 기능을 통해 번역 엔진을 실행하고 마우스 오른쪽 버튼 클릭 명령으로 번역 서비스에 접근할 수 있다. 2010년 2월, 구글 크롬 브라우저에는 선택적 자동 웹페이지 번역 기능이 기본적으로 통합되었다.
3.3. 문서 번역
구글 번역은 사용자가 업로드한 문서를 선택한 언어로 번역하는 기능을 제공한다. 지원되는 문서 형식은 .doc, .docx, .odf, .pdf, .ppt, .pptx, .ps, .rtf, .txt, .xls, .xlsx이다.
3.4. 음성 번역
구글 번역은 음성 번역 기능을 통해 사용자가 말하는 내용을 선택한 외국어로 즉시 번역한다. 안드로이드 및 iOS용 구글 번역 앱은 "대화 모드"를 통해 32개 언어의 음성 번역을 지원한다.
2011년 1월 안드로이드 버전에서는 사용자가 다른 언어를 사용하는 사람과 원활하게 소통할 수 있도록 돕는 "대화 모드"를 실험적으로 도입했다. 초기에는 영어와 스페인어만 지원했지만, 2011년 10월에는 12개의 새로운 언어가 추가되었다 (테스트 중).
3.5. 모바일 앱 기능
구글 번역은 안드로이드와 iOS에서 모바일용으로 지원된다. 음성 입력, 다국어 번역, 실시간 번역 등 웹 버전에서 사용할 수 있는 기본 기능에 모바일 전용 기능이 추가되었다.
* 대화 모드: 음성 인식 기능을 통해 서로 다른 언어를 사용하는 두 사람 간의 대화를 문자 메시지 형식으로 실시간 번역하는 기능이다. 번역된 문장을 읽어주기도 한다. 2011년 1월 안드로이드 버전에 실험적으로 도입되었으며, 처음에는 영어와 스페인어만 지원했지만, 2011년 10월에 12개 언어(테스트 중)에 대한 지원이 추가되었다.
* 오프라인 번역: 오프라인 번역 패키지를 다운로드해야 사용할 수 있으며, 네트워크 연결 없이도 번역할 수 있다. 온라인 번역보다 정확도는 떨어진다.
* 카메라 입력: 문자를 직접 입력하기 어려울 때 유용하다. 카메라로 찍은 문자를 광학 문자 인식(OCR) 기술로 인식하여 번역한다. 일부 언어는 사진 속 문자를 실시간으로 번역문으로 대체한다. 2015년 1월, Word Lens 앱 인수로 실시간 번역 기능이 추가되었고, 초기에는 7개 언어만 지원했지만, 7월 업데이트에서 합성곱 신경망을 사용한 새로운 구현으로 20개 언어 지원이 추가되었으며, 대화 모드 번역 속도와 품질도 향상되었다(증강 현실). 이후 이 기능은 인스턴트 카메라로 이름이 변경되었다.
* 필기 입력: 가상 키보드로 입력하기 어려운 경우에 사용할 수 있다.
2018년, 구글은 앱을 종료하거나 전환하지 않고도 즉시 번역이 가능한 "탭하여 번역" 기능을 도입했다. 2016년 5월 11일, 안드로이드용 구글 번역에 '탭하여 번역'이 도입되어, 외국어 앱에서 텍스트를 강조 표시하면 앱 내부에 번역이 팝업으로 나타난다.
3.6. 기타 기능
구글 번역은 대부분의 기능에서 발음, 사전, 번역 듣기 기능을 제공한다. 또한, 자체 번역 앱을 출시하여 스마트폰이 오프라인 상태일 때도 번역 기능을 사용할 수 있다.
4. 지원 언어
| 지원 언어 | 추가 지원 언어 |
|---|---|
다음 언어는 아직 Google 번역에서 지원하지 않지만, 번역 커뮤니티에서는 가능한 언어이다.
현재, 구글 번역은 다양한 문자 체계로 작성된 249개의 언어, 방언 및 언어 변종을 지원한다.
2024년 12월 기준, 다음 68개 언어, 방언 및 언어 변종은 현재 텍스트 음성 변환 기능을 지원한다.
5. 번역 방법론
구글 번역은 2006년 4월 통계적 기계 번역 엔진으로 처음 출시되었다. 초기에는 프란츠 요제프 오크(Franz Josef Och)의 연구를 기반으로, 국제 연합과 유럽 의회 문서 및 기록 등 방대한 양의 언어 데이터를 활용하여 번역 모델을 구축했다. 이 방식은 한 언어에서 다른 언어로 직접 번역하는 대신, 주로 영어를 중간 언어로 거쳐 번역하는 방식을 사용했다.
2007년 10월까지 아랍어, 중국어, 러시아어를 제외한 다른 언어는 SYSTRAN을 기반으로 번역되었으나, 이후에는 구글 자체 기술로 전환되었다. 한때 구글은 번역 커뮤니티를 통해 자원봉사자들의 도움을 받아 번역 품질을 개선하는 크라우드소싱 기능을 제공하기도 했다.
2016년에는 신경망 기계 번역(NMT)으로 번역 알고리즘이 변경되어 번역 정확도가 크게 향상되었다. 이 방식은 문장 전체를 한 번에 처리하여 보다 자연스러운 번역 결과를 제공한다. 2020년부터는 트랜스포머 기반 심층 학습 네트워크를 도입하여 번역 품질을 더욱 개선하고 있다.
5.1. 통계적 기계 번역 (SMT)
초기 구글 번역은 통계적 기계 번역(SMT) 서비스로 출시되었다. SMT는 예측 알고리즘을 사용하여 텍스트를 번역했기 때문에 문법적 정확도가 떨어졌다. 2006년 4월, 구글 번역은 통계 기계 번역 엔진으로 출시되었다.
구글 번역은 문법 규칙을 적용하지 않았다. 그 이유는 알고리즘이 전통적인 규칙 기반 분석이 아닌 통계적 또는 패턴 분석을 기반으로 했기 때문이다. 시스템의 원 개발자인 프란츠 요제프 오크(Franz Josef Och)는 규칙 기반 알고리즘의 효율성을 비판하며 통계적 접근 방식을 선호했다.
구글은 새로운 언어 쌍에 대해 사용 가능한 통계 기계 번역 시스템을 처음부터 개발하기 위해, 1억 5천만~2억 단어 이상의 이중 언어 텍스트 말뭉치(또는 병렬 컬렉션)와 각각 10억 단어 이상의 두 개의 단일 언어 말뭉치를 활용했다. 이렇게 방대한 양의 언어 데이터를 확보하기 위해 구글은 국제 연합과 유럽 의회 문서 및 기록을 사용했다. UN은 일반적으로 모든 6개의 UN 공식 언어로 문서를 발행하며, 이를 통해 매우 큰 6개 언어 말뭉치가 생성되었다. 구글 관계자들은 일본 국내 회의에 참여하여 연구원들로부터 이중 언어 데이터를 요청하기도 했다.
구글 번역은 번역 제안을 생성할 때 수억 개의 문서에서 패턴을 찾아 최상의 번역을 결정했다. 인간 번역가가 이미 번역한 문서에서 패턴을 감지함으로써 구글 번역은 적절한 번역이 무엇인지에 대한 정보에 입각한 추측(AI)을 했다.
구글 번역은 한 언어에서 다른 언어로 직접 번역하지 않고(L1 → L2), 영어로 번역한 다음 대상 언어로 번역하는(L1 → EN → L2) 경우가 많았다.
다음은 영어로의 직접적인 구글 번역이 없었던 언어 목록의 일부이다.
* 벨라루스어 (be ↔ ru ↔ en ↔ 기타)
* 카탈루냐어 (ca ↔ es ↔ en ↔ 기타)
* 갈리시아어 (gl ↔ pt ↔ en ↔ 기타)
* 아이티 크레올어 (ht ↔ fr ↔ en ↔ 기타)
* 한국어 (ko ↔ ja ↔ en ↔ 기타)
* 슬로바키아어 (sk ↔ cs ↔ en ↔ 기타)
* 우크라이나어 (uk ↔ ru ↔ en ↔ 기타)
* 우르두어 (ur ↔ hi ↔ en ↔ 기타)
2007년 10월 이전에는 아랍어, 중국어, 러시아어를 제외한 다른 언어의 경우 구글 번역은 바벨피시(현재는 서비스 종료) 등 다른 여러 온라인 번역 서비스에서도 사용되는 소프트웨어 엔진인 SYSTRAN을 기반으로 했다. 2007년 10월부터 구글 번역은 신경망 기계 번역으로 전환되기 전까지 통계 기계 번역을 기반으로 하는 독점적인 자체 기술을 사용했다.
5.2. 신경망 기계 번역 (GNMT)
구글 번역의 신경망 기계 번역(NMT, Neural Machine Translation) 시스템(GNMT)은 심층 학습을 사용하여 전체 문장을 한 번에 번역하는 기술이다. 이전의 통계적 기계 번역(SMT) 방식과 달리, GNMT는 문장의 부분적인 번역이 아닌 전체 문맥을 고려하여 번역한다. 이를 통해 "가장 적절한 번역을 찾아내고, 이를 다시 배열하고 조정하여 적절한 문법으로 사람이 말하는 것과 유사하게" 만든다.
GNMT는 장단기 기억 네트워크를 비롯한 종단 간 인공 신경망을 사용한다. 이는 "수백만 개의 예시로부터 학습"하는 예시 기반 기계 번역(EBMT) 방식의 일종으로, 번역 품질을 향상시킨다. 구글 연구원들은 GNMT가 "문장의 의미를 인코딩"하는 언어 간 기계 번역을 시도한다고 설명한다.
2016년 11월 GNMT 도입 이후, 영어와 프랑스어, 독일어, 스페인어, 중국어 간의 번역 정확도가 향상되었다. 2018년 기준으로 구글 번역은 하루 1,000억 개 이상의 단어를 번역한다.
5.3. 트랜스포머 기반 모델
2020년부터 구글 번역은 트랜스포머 기반 심층 학습 네트워크를 도입하였다.
6. 번역 정확도
구글 번역은 다양한 언어를 지원하고, 외국인과의 대화, 웹 페이지 전체 번역, 사진 속 글자 번역 등 여러 기능을 제공한다. 그러나 잦은 오류로 번역이 부정확한 경우가 많고, 특히 외국인이 한국어로 번역할 때 반말이 나오는 경우가 있다. 영어를 대문자로 입력하면 번역이 잘 안 되거나, 번역 후 발음이 들리지 않는 문제도 있다.
2006년 4월, 구글 번역은 통계적 기계 번역 엔진을 기반으로 출시되었다. 구글 번역은 규칙 기반 분석이 아닌 통계적 또는 패턴 분석을 사용하므로 문법 규칙을 적용하지 않는다. 초기에는 프란츠 요제프 오크(Franz Josef Och)의 연구를 바탕으로 한 통계적 기계 번역 방법을 사용했다.
구글 번역은 한 언어에서 다른 언어로 바로 번역(L1 → L2)하지 않고, 주로 영어를 거쳐 번역(L1 → EN → L2)하는 방식을 사용한다. 영어는 문맥에 따라 의미가 달라지므로 번역 오류가 발생할 수 있다. 예를 들어 프랑스어 "vous"를 러시아어로 번역하면 "vous" → you → ты러시아어 또는 Bы/вы러시아어가 될 수 있다.
벨라루스어(be ↔ ru ↔ en ↔ 기타), 카탈루냐어(ca ↔ es ↔ en ↔ 기타), 갈리시아어(gl ↔ pt ↔ en ↔ 기타), 아이티 크레올어(ht ↔ fr ↔ en ↔ 기타), 한국어(ko ↔ ja ↔ en ↔ 기타), 슬로바키아어(sk ↔ cs ↔ en ↔ 기타), 우크라이나어(uk ↔ ru ↔ en ↔ 기타), 우르두어(ur ↔ hi ↔ en ↔ 기타)는 영어로 바로 번역되지 않고 다른 중개 언어를 거친다.
새로운 언어 쌍에 대한 통계적 기계 번역 시스템을 개발하기 위해, 1억 5천만~2억 단어 이상의 이중 언어 텍스트 말뭉치(병렬 컬렉션)와 각각 10억 단어 이상의 단일 언어 말뭉치가 필요하다는 것이 오크의 설명이다. 구글은 국제 연합과 유럽 의회 문서 및 기록을 통해 방대한 언어 데이터를 확보했다. 또한, 수억 개의 문서에서 패턴을 찾아 번역 제안을 생성하고, 사람이 번역한 문서의 패턴을 감지하여 번역 품질을 높인다.
2007년 10월 이전, 아랍어, 중국어, 러시아어를 제외한 언어는 SYSTRAN을 기반으로 번역되었다. 이후 자체 기술을 사용하다가, 2016년 뉴럴 네트워크 기반으로 알고리즘을 변경하여 번역 정확도를 향상시켰다.
바벨피시 등과 달리 구글 번역은 시스트란(SYSTRAN)을 사용하지 않고 통계 기반 기계 번역 엔진을 자체적으로 사용한다. 국제연합 문서 약 200억 단어의 말뭉치를 분석하여 번역 전문가 시스템을 구축했으며, 구글 크롬에 통합되어 외국어 웹사이트 자동 번역 기능을 제공한다. 모든 언어 간 번역이 가능하지만, 일부는 영어 등을 매개로 중역된다.
6.1. 정확도 평가
구글 번역은 사람이 하는 번역만큼 완벽하지 않다. 하지만 텍스트가 잘 구성되어 있고, 형식적인 언어를 사용하며, 문장이 짧고, 번역 데이터가 많은 주제에 대해서는 영어와 여러 언어 간 번역에서 사람이 번역한 것과 비슷한 결과를 낼 때도 있다. 그러나 문장이 길거나, 친숙하거나 문학적인 언어를 사용하는 경우에는 정확도가 떨어진다. 영어를 기준으로 다른 많은 언어의 경우, 격식 있는 상황에서 글의 핵심 내용을 파악할 수 있는 수준의 번역을 제공한다. 영어에서 102개 언어로 번역했을 때, 35개 언어에서 글의 주요 내용이 50% 이상 전달되는 것으로 나타났다. 하지만 67개 언어에서는 이해 가능한 수준의 번역 결과를 얻지 못했다.
영어에서 다른 언어로의 번역 결과를 바탕으로 추정해 보면, 영어가 아닌 두 언어 간 번역에서 글의 요지를 50% 이상 전달할 확률은 약 1% 정도이다. 2011년 연구에 따르면 구글 번역은 UCLA 영어 능력 시험 최저 점수보다 약간 높은 점수를 받았다. 구글 번역은 단어 선택의 유연성이 부족하지만, 형식, 참조, 개념적 일관성 면에서는 사람이 번역한 것과 유사한 결과를 내기도 한다. 또한 많은 언어에서 문장 구조와 길이가 사람이 번역한 것과 비슷하게 나타난다. 구글은 각 언어의 원어민에게 번역을 평가하게 했는데, 0점에서 6점 사이에서 평균 5.43점을 받았다.
단어 하나를 번역하는 사전으로 사용할 때는 구글 번역의 정확도가 매우 떨어진다. 왜냐하면 단어 하나에 여러 가지 뜻(다의어)이 있을 수 있기 때문이다. 영어에서 가장 많이 사용되는 100개 단어는 평균 15개 이상의 의미를 가지고 있다. 따라서 각 의미가 다른 단어로 번역될 경우, 정확한 번역을 얻을 확률은 약 1/15 정도이다. 가장 흔한 영어 단어는 적어도 두 가지 의미를 가지므로, 번역될 언어에서 이 두 의미에 해당하는 단어가 다르면 50%의 확률로 올바른 번역을 얻을 수 있다. 구글 번역은 통계적으로 가장 빈번한 의미를 선택하기 때문에, 여러 번 나타나는 경우가 아니면 정확한 번역을 얻기 어렵다. 구글 번역은 어휘에 없는 단어는 알고리즘을 통해 만들어낸다.
6.2. 한계
구글 번역은 다른 자동 번역 도구와 마찬가지로 여러 한계를 가지고 있다. 우선, 다의어(다의어)(한 단어가 여러 의미를 갖는 경우)와 관용구(다중어구)(개별 단어 분석으로 이해하기 어려운 표현)를 정확하게 처리하지 못한다. 외국어 단어가 번역된 언어에서 다른 의미를 가질 때 오역이 발생할 수 있다. 또한, 문법 오류도 구글 번역의 정확도를 떨어뜨리는 주요 요인이다.
언어 간 투자, 연구, 디지털 자료의 범위 차이로 인해 구글 번역의 정확도는 언어마다 크게 달라진다. 어떤 언어는 다른 언어보다 번역 결과가 더 좋다. 대부분의 아프리카, 아시아, 태평양 언어는 유럽 언어보다 낮은 점수를 받는 경향이 있다. 다만, 아프리칸스어와 중국어는 예외적으로 높은 점수를 받는다.
7. 논란 및 비판
구글 번역은 잦은 오류로 이상하게 번역되는 경우가 많다. 특히 외국인이 한국어로 번역하는 경우 반말로 나오는 경우가 많다. 통계적 매칭을 사용하여 번역하기 때문에, 번역된 텍스트에는 종종 앞뒤가 맞지 않거나 명백한 오류가 포함될 수 있다. 흔히 다른 언어에서 비슷하지만 동등하지 않은 일반적인 용어로 바꾸는 경우도 있으며, 문장의 의미를 뒤집는 경우도 있다. 나쁜 번역가 및 번역 파티와 같은 참신한 웹사이트에서는 여러 언어 간에 번역을 반복하여 유머러스한 텍스트를 생성하는 데 이 서비스를 사용해 왔다. 이는 어린이 놀이인 전화놀이와 유사하다.
어휘력은 뛰어나지만, 프로그램 이름이나 전문 용어 등 특수한 어휘의 오역이 종종 발견되며, 장문의 경우 정확도가 저하되는 경향이 있다.
8. 한국어 번역의 특징 및 개선 노력
구글 번역은 잦은 오류로 이상하게 번역되는 경우가 많다. 특히 외국인이 한국어로 번역하는 경우 반말로 나오는 경우가 많다.
구글은 자원봉사자들이 "번역 커뮤니티"에 참여하여 구글 번역의 정확도 향상에 기여할 수 있도록 크라우드소싱 기능을 제공한 적이 있다. 자원봉사자들은 번역 개선에 도움이 되는 최대 5개의 언어를 선택할 수 있었으며, 사용자는 번역된 구절을 확인하고 자신이 사용하는 언어로 영어를 번역하거나 영어에서 자신이 사용하는 언어로 번역하여 드물고 복잡한 구절 번역의 정확도 향상에 기여할 수 있었다. 2016년 8월에는 안드로이드 사용자를 위한 Google 크라우드소싱 앱이 출시되어 번역 작업이 제공되었다. 기여 방법은 세 가지였다. 첫째, 구글은 사용자가 번역본을 입력해야 하는 구절을 보여주었다. 둘째, 구글은 사용자가 동의, 비동의 또는 건너뛰기를 선택할 수 있는 제안된 번역을 보여주었다. 셋째, 사용자는 구글의 결과를 개선할 수 있다고 생각하는 구절에 대한 번역을 제안할 수 있었다. 44개 언어에 대한 테스트 결과, "편집 제안" 기능은 4년 동안 최대 40%의 경우에 개선으로 이어졌다. 번역 품질 향상과 언어 지원 확장에 기여했음에도 불구하고, 구글은 2024년 3월 28일에 번역 커뮤니티를 폐쇄했다.
어휘력은 뛰어나지만, 프로그램 이름이나 전문 용어 등 특수한 어휘의 오역이 종종 발견되며, 장문의 경우 정확도가 저하되는 경향이 있다.
2016년에 번역 알고리즘이 뉴럴 네트워크 기반으로 변경되어 번역 정확도가 향상되었다. 기존 알고리즘과 달리 문장을 부분적으로 처리하는 것이 아니라 전체적으로 처리하기 때문에 더욱 정확한 번역어 후보를 제시한다.
9. 활용 사례
구글 번역은 개인, 기업, 교육 기관 등 다양한 분야에서 활용되고 있다. 특히, 위키백과 콘텐츠 번역과 같은 공익적인 목적의 활용 사례도 있다. 2019년 1월 9일, 비영리 단체 위키미디어 재단은 위키백과 콘텐츠 번역에 구글 번역을 사용할 수 있다고 발표했으며, 양측의 합의에 따라 무상으로 이용 가능하다.
또한, 2017년에는 티사이드 지방 법원의 심리 과정에서 사용된 사례도 있다.
10. 오픈 소스 라이선스 및 구성 요소
| 언어 | WordNet | 라이선스 |
|---|---|---|
| 알바니아어 | Albanet | CC BY 3.0/GPL 3 |
| 아랍어 | Arabic WordNet | CC BY-SA 3.0 |
| 카탈루냐어 | 다국어 중앙 저장소 | CC BY 3.0 |
| 중국어 | 중국어 Wordnet | Wordnet |
| 덴마크어 | DanNet | Wordnet |
| 영어 | 프린스턴 WordNet | Wordnet |
| 핀란드어 | FinnWordNet | Wordnet |
| 프랑스어 | WOLF (WOrdnet Libre du Français) | CeCILL-C |
| 갈리시아어 | 다국어 중앙 저장소 | CC BY 3.0 |
| 크리올어(아이티) | MIT-아이티 이니셔티브 | CC BY 4.0 |
| 히브리어 | 히브리어 Wordnet | Wordnet |
| 인도네시아어 | Wordnet Bahasa | MIT |
| 이탈리아어 | MultiWordNet | CC BY 3.0 |
| 일본어 | 일본어 Wordnet | Wordnet |
| 말레이어 | Wordnet Bahasa | MIT |
| 노르웨이어 | 노르웨이어 Wordnet | Wordnet |
| 페르시아어 | 페르시아어 Wordnet | 무료 사용 |
| 폴란드어 | plWordNet | Wordnet |
| 포르투갈어 | OpenWN-PT | CC BY-SA 3.0 |
| 스페인어 | 다국어 중앙 저장소 | CC BY 3.0 |
| 태국어 | 태국어 Wordnet | Wordnet |
포라스나 게일게의 새로운 영어-아일랜드어 사전의 아일랜드어 데이터. (Lexicography MasterClass Ltd.가 포라스나 게일게를 위해 설계 및 개발한 영어 데이터베이스) Gwerin의 Gweiadur의 웨일스어 데이터.
특정 콘텐츠는 옥스퍼드 대학교 출판부가 저작권을 소유하고 있다. 일부 구절 번역은 위키트래블에서 가져왔다.