데이터 추출
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
데이터 추출은 웹 페이지, 이메일, 문서, PDF 등 다양한 비정형 데이터 소스에서 원하는 데이터를 수집하는 과정을 의미한다. 소셜 미디어, 멀티미디어 파일과 같은 새로운 소스에서 데이터를 추출하는 기술적 과제가 증가하고 있으며, 웹에서 데이터를 추출하는 과정은 웹 스크래핑으로 불린다. 비정형 데이터에 구조를 부여하기 위해 텍스트 패턴 매칭, 테이블 기반 접근 방식, 텍스트 분석 등의 방법이 사용된다.
더 읽어볼만한 페이지
데이터 추출 |
---|
2. 데이터 소스
일반적인 비정형 데이터 소스에는 웹 페이지, 이메일, 문서, PDF, 스캔한 텍스트, 메인프레임 보고서, 스풀 파일, 광고 항목, 소셜 미디어, 멀티미디어 파일 등이 포함된다. 이러한 데이터는 영업 또는 마케팅 리드 생성 등에 추가로 활용될 수 있다.
무구조 데이터에 구조를 추가하는 작업은 여러 방식으로 이루어진다. 주요 방법으로는 텍스트 패턴 매칭을 이용하는 것, 테이블 기반 접근 방식을 사용하는 것, 그리고 텍스트 분석을 활용하는 것 등이 있다.
비정형 소스에서 데이터를 추출하는 것은 상당한 기술적 과제로 여겨진다. 역사적으로 데이터 추출은 물리적 하드웨어 형식의 변화를 처리하는 데 중점을 두었지만, 현재는 대부분 이러한 비정형 데이터 소스와 다양한 소프트웨어 형식에서 데이터를 추출하는 작업을 다룬다. 특히 웹에서 데이터를 추출하는 과정인 "웹 데이터 추출" 또는 "웹 스크래핑"의 중요성이 점점 커지고 있다.
3. 구조 부여
3. 1. 패턴 매칭
텍스트 패턴 매칭을 사용하여 소규모 또는 대규모 구조를 식별한다. 예를 들어 보고서의 레코드와 머리글, 바닥글의 관련 데이터를 식별하는 데 사용될 수 있다. 이때 정규 표현식이 사용될 수 있다.
3. 2. 테이블 기반 접근 방식
테이블 기반 접근 방식은 제한된 영역 내에서 공통된 부분을 식별하는 데 사용된다. 예를 들어, 이메일로 전송된 이력서에서 '기술', '이전 직장 경험', '자격' 등과 같은 항목을 찾아낼 때, 미리 정해진 표준적인 제목 목록을 활용하여 해당 정보를 식별할 수 있다. 이러한 제목은 사용되는 언어에 따라 다를 수 있다. 가령 '학력' 정보는 '학력/자격/과정'과 같이 유사한 제목 아래에서 발견될 수 있다.
3. 3. 텍스트 분석
텍스트 분석은 무구조 데이터에 구조를 부여하는 방법 중 하나로 활용된다. 이는 텍스트의 내용을 이해하고 분석하여 다른 정보와 연결하려는 시도를 의미한다.
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com