데이터 추출
1. 개요
데이터 추출은 웹 페이지, 이메일, 문서, PDF 등 다양한 비정형 데이터 소스에서 원하는 데이터를 수집하는 과정을 의미한다. 소셜 미디어, 멀티미디어 파일과 같은 새로운 소스에서 데이터를 추출하는 기술적 과제가 증가하고 있으며, 웹에서 데이터를 추출하는 과정은 웹 스크래핑으로 불린다. 비정형 데이터에 구조를 부여하기 위해 텍스트 패턴 매칭, 테이블 기반 접근 방식, 텍스트 분석 등의 방법이 사용된다.
2. 데이터 소스
일반적인 비정형 데이터 소스에는 웹 페이지, 이메일, 문서, PDF, 스캔한 텍스트, 메인프레임 보고서, 스풀 파일, 광고 항목, 소셜 미디어, 멀티미디어 파일 등이 포함된다. 이러한 데이터는 영업 또는 마케팅 리드 생성 등에 추가로 활용될 수 있다.
비정형 소스에서 데이터를 추출하는 것은 상당한 기술적 과제로 여겨진다. 역사적으로 데이터 추출은 물리적 하드웨어 형식의 변화를 처리하는 데 중점을 두었지만, 현재는 대부분 이러한 비정형 데이터 소스와 다양한 소프트웨어 형식에서 데이터를 추출하는 작업을 다룬다. 특히 웹에서 데이터를 추출하는 과정인 "웹 데이터 추출" 또는 "웹 스크래핑"의 중요성이 점점 커지고 있다.
3. 구조 부여
무구조 데이터에 구조를 추가하는 작업은 여러 방식으로 이루어진다. 주요 방법으로는 텍스트 패턴 매칭을 이용하는 것, 테이블 기반 접근 방식을 사용하는 것, 그리고 텍스트 분석을 활용하는 것 등이 있다.
3.1. 패턴 매칭
텍스트 패턴 매칭을 사용하여 소규모 또는 대규모 구조를 식별한다. 예를 들어 보고서의 레코드와 머리글, 바닥글의 관련 데이터를 식별하는 데 사용될 수 있다. 이때 정규 표현식이 사용될 수 있다.
3.2. 테이블 기반 접근 방식
테이블 기반 접근 방식은 제한된 영역 내에서 공통된 부분을 식별하는 데 사용된다. 예를 들어, 이메일로 전송된 이력서에서 '기술', '이전 직장 경험', '자격' 등과 같은 항목을 찾아낼 때, 미리 정해진 표준적인 제목 목록을 활용하여 해당 정보를 식별할 수 있다. 이러한 제목은 사용되는 언어에 따라 다를 수 있다. 가령 '학력' 정보는 '학력/자격/과정'과 같이 유사한 제목 아래에서 발견될 수 있다.
3.3. 텍스트 분석
텍스트 분석은 무구조 데이터에 구조를 부여하는 방법 중 하나로 활용된다. 이는 텍스트의 내용을 이해하고 분석하여 다른 정보와 연결하려는 시도를 의미한다.