비정형 데이터

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

비정형 데이터는 명확하게 정의된 구조를 갖지 않는 데이터를 의미하며, 텍스트, 이미지, 음성, 동영상 등 다양한 형태를 포함한다. 과거에는 관계형 데이터베이스에 구조화된 데이터가 주로 사용되었지만, IT 기술 발전으로 비정형 데이터의 활용이 증가하면서 이를 처리하기 위한 기술이 발전해 왔다. 비정형 데이터 처리에는 데이터 마이닝, 텍스트 마이닝, 자연어 처리, 기계 학습, 패턴 인식, 인공 지능 등 다양한 기술이 활용되며, 검색 엔진도 널리 사용된다. 비정형 데이터는 의학 및 생명 의학 연구 분야에서도 중요한 자료로 활용되며, GDPR과 같은 데이터 프라이버시 규정의 적용을 받기도 한다.

비정형 데이터

📚 더 읽어볼만한 페이지

자료 - 데이터 압축
데이터 압축은 디지털 데이터의 크기를 줄여 저장 공간을 절약하고 전송 속도를 향상시키는 기술로, 모르스 부호에서 시작하여 ZIP, JPEG, LZ77 등 다양한 방식으로 발전해 왔으며, 무손실 압축과 손실 압축으로 나뉘고 최근에는 인공지능 기술을 활용하여 효율성을 높여 다양한 분야에서 활용되고 있다.
자료 - 데이터 시각화
데이터 시각화는 데이터를 그래픽 요소로 표현하여 정보 전달, 패턴 파악, 데이터 탐색 및 분석을 용이하게 하는 방법으로, ETRI는 정보 조직화, 정보 시각화, 상호작용의 세 단계로 분류한다.
정보 기술 관리 - 전사적 자원 관리
전사적 자원 관리(ERP)는 기업의 자원과 업무 프로세스를 통합하여 효율성을 높이는 시스템이며, 재무, 인사, 제조, 공급망 관리 등 다양한 기능을 다루고, 기업의 의사 결정, 투명성, 세계화를 지원한다.
정보 기술 관리 - 고객 지원
고객 지원은 기업이 고객의 문의, 불만, 문제 해결 요청 등에 대응하는 활동으로, 자동화와 다양한 방식을 통해 효율성을 높여 고객 만족도 및 충성도를 강화하는 데 기여한다.
비즈니스 인텔리전스 - 예측 분석
예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
비즈니스 인텔리전스 - 데이터 웨어하우스
데이터 웨어하우스는 의사결정 지원을 위해 운영 시스템과 분리되어 운영되는 데이터 저장소로, 여러 시스템의 데이터를 통합하여 신뢰성 있는 단일 정보를 제공하며, 시간 가변성, 주제 중심성, 사용자 접근성, 읽기 전용 데이터베이스라는 특징을 가진다.

1. 개요
2. 데이터의 변천
3. 데이터베이스의 변천
4. 비정형 데이터 처리 기술
- 4.1. 자연어 처리 (NLP) 접근 방식
- 4.2. 의학 및 생물 의학 연구 분야의 접근 방식
5. 비정형 데이터 관련 용어 문제
6. 데이터 프라이버시 규정과 비정형 데이터
7. 비정형 데이터 활용 사례

2. 데이터의 변천

과거부터 사람들은 상업 활동이나 자연 현상 등을 기록/측정한 수치를 의미 있는 데이터(정보)로 활용해 왔다. 이러한 수치 데이터를 보다 효율적이고 생산적으로 활용하기 위해 계산기(컴퓨터)가 생겨나 활용이 고도화되면서, 주로 관계형 모델을 기반으로 한 데이터베이스에 구조화하여 저장하고 활용했기 때문에, 그러한 데이터를 나중에 구조화 데이터라고 부르게 되었다. 또한, IT는 조직이나 인간의 다양한 활동을 보다 효율적이고 생산적으로 만들기 위해 수치, 문서, 이미지, 음성, 동영상 등 사람의 커뮤니케이션을 더 잘 표현하는 데이터를 활용하게 되었다. 이러한 데이터는 구조화 데이터라는 분류를 넘어, 완전한 구조 정의를 갖지 않는 반구조화 데이터, 또는 구조 정의를 갖지 않는 비정형 데이터로 분류되게 되었다.

3. 데이터베이스의 변천

IT 발전에 따라, 조직과 인간의 다양한 활동에서 수치, 문서, 이미지, 음성, 동영상이 데이터로 대량 생성되었다. 최근에는 이들을 통칭하여 빅데이터라고 부르게 되었으며, 이를 저장하고 활용하기 위한 데이터베이스도 진화하였다. 기존 데이터베이스의 질의 언어가 SQL인 데 반해, NoSQL이라고 총칭되는 데이터베이스도 등장하게 되었다. 또한, Hadoop과 같은 분산 파일 시스템도 활용되게 되었다.

* 관계형 데이터베이스
* 객체 지향 데이터베이스
* XML 데이터베이스
* 컬럼 지향 데이터베이스 관리 시스템
* 인 메모리 데이터베이스
* 분산 파일 시스템(Hadoop 등)
* 역색인
* 문서 지향 데이터베이스
* NoSQL

4. 비정형 데이터 처리 기술

데이터 마이닝, 텍스트 마이닝, 자연어 처리(NLP), 기계 학습, 패턴 인식, 인공 지능 등 다양한 기술이 비정형 데이터 처리에 활용된다. 초기에는 비정형 텍스트의 추출 및 분류에 주로 초점을 맞추었으나, 특이값 분해(SVD)를 이용한 차원 축소 등 기술 발전으로 효율적인 분석이 가능해졌다. 2000년대 후반 빅 데이터의 출현으로 비정형 데이터 분석에 대한 관심이 높아졌다.

텍스트 구조화를 위해 수동으로 메타데이터 태깅을 하거나, 이미지, 음성, 동영상에서 텍스트를 추출하여 텍스트 분석을 통해 메타데이터를 태깅하기도 한다. 비정형 정보 관리 아키텍처(UIMA) 표준은 비정형 데이터 처리 및 의미 추출을 위한 공통 프레임워크를 제공한다.

검색 엔진은 비정형 데이터, 특히 텍스트를 색인화하고 검색하는 데 널리 사용되는 도구이다. SAS, IBM, SAP (기업), HP 오토노미, 오픈텍스트 등 다양한 기업에서 비정형 데이터 분석 소프트웨어를 제공하고 있으며, 소셜 미디어 분석에 특화된 기업들도 있다.

4.1. 자연어 처리 (NLP) 접근 방식

데이터 마이닝, 자연어 처리(NLP), 텍스트 분석과 같은 기술은 비정형 데이터에서 정보를 찾아내거나 해석하는 다양한 방법을 제공한다. 수천, 수백만 개의 문서 집합을 처리하기 위해 개발된 특정 계산 워크플로우는 비정형 데이터에 구조를 부여한다. 이러한 접근 방식 중 일부는 온라인 분석 처리(OLAP)의 개념을 기반으로 하며, 텍스트 큐브와 같은 데이터 모델을 활용한다. 데이터 모델을 통해 문서 메타데이터를 사용할 수 있게 되면, 구문 기반 접근 방식을 사용하여 문서 하위 집합의 요약을 생성할 수 있다.

4.2. 의학 및 생물 의학 연구 분야의 접근 방식

생명 의학 연구는 연구자들이 종종 연구 결과를 학술 저널에 발표하기 때문에 주요한 비정형 데이터 소스를 생성한다. 이러한 문서의 언어는 포함된 복잡한 전문 용어와 관찰을 완전히 맥락화하는 데 필요한 도메인 지식 때문에 구조적 요소를 도출하기 어렵지만, 이러한 활동의 결과는 기술 및 의학 연구 간의 링크와 새로운 질병 치료법에 대한 단서를 얻을 수 있다. 최근 생명 의학 문서에 구조를 적용하려는 노력에는 문서 간의 주제를 식별하기 위한 자기 조직 지도 접근 방식, 범용 비지도 학습 알고리즘, 그리고 단백질 이름과 문헌의 심혈관 질환 주제 간의 연관성을 결정하기 위한 CaseOLAP 워크플로의 적용이 포함된다. CaseOLAP는 정확하고(관계 식별), 일관적이며(높은 재현성) 효율적인 방식으로 구문-범주 관계를 정의한다. 이 플랫폼은 접근성을 향상시키고 광범위한 생명 의학 연구 응용 분야를 위한 구문 마이닝 도구를 통해 생명 의학 커뮤니티에 힘을 실어준다.

5. 비정형 데이터 관련 용어 문제

'비정형'이라는 용어는 다음과 같은 이유로 부정확하다고 여겨진다.

* 구조는 공식적으로 정의되지는 않았지만, 여전히 암시될 수 있다.
* 어떤 형태의 구조를 가진 데이터라도 해당 구조가 처리 작업에 도움이 되지 않는다면 비정형 데이터로 특징지을 수 있다.
* 비정형 정보는 어느 정도의 구조(반정형 데이터)를 가질 수도 있고, 심지어 매우 구조화되어 있을 수도 있지만, 예상치 못하거나 공표되지 않은 방식으로 구조화될 수 있다.

6. 데이터 프라이버시 규정과 비정형 데이터

과거 스웨덴(EU)에서는 2018년 이전에 특정 데이터가 "비정형 데이터"로 확인되면 일부 데이터 개인 정보 보호 규정이 적용되지 않았다. 2018년 GDPR이 발효된 후 EU에서 이러한 "비정형 데이터" 용어는 거의 사용되지 않는다. GDPR은 "비정형 데이터"를 언급하거나 정의하지 않고, 대신 "구조화된"이라는 단어를 다음과 같이 사용한다.

* GDPR 고려 사항 15항: "자연인의 보호는 ... 파일 시스템에 포함된 ... 개인 데이터의 처리에 적용되어야 한다."
* GDPR 제4조: "'파일 시스템'은 특정 기준에 따라 접근할 수 있는 개인 데이터의 구조화된 집합을 의미한다 ..."

CJEU의 GDPR 판례는 "파일 시스템"을 다음과 같이 정의한다. "설교에 참여하는 각 구성원이 수집한 개인 데이터 세트가 실제로 구조화된 특정 기준과 특정 형식은, 연락을 받은 특정 사람과 관련된 데이터를 쉽게 검색할 수 있게 하는 한, 관련이 없으며, 이는 주요 소송 사건의 모든 상황을 고려하여 회부 법원이 확인해야 한다." ([https://curia.europa.eu/juris/document/document.jsf?docid=203822&doclang=EN|Jehovan Todistajat v. Tietosuojavaltuutettu, Jehovan, Paragraph 61]).

개인 데이터를 쉽게 검색할 수 있다면, 그것은 파일 시스템이며, "구조화"되었는지 여부와 관계없이 GDPR의 적용을 받는다. 오늘날 대부분의 전자 시스템은 접근 및 적용된 소프트웨어에 따라 데이터의 쉬운 검색을 허용할 수 있다.

7. 비정형 데이터 활용 사례

전산학 연구자 H.P. 루한은 1958년 이른 시기에 비정형 텍스트의 추출 및 분류에 관심을 가졌다. 21세기에 들어서 기술이 연구를 뒷받침하게 되었다. 2004년, SAS Institute는 특이값 분해(SVD)를 사용하여 고차원 텍스트 공간을 더 작은 차원으로 축소, 효율적인 기계 분석을 가능하게 하는 SAS 텍스트 마이너를 개발했다. 기계 텍스트 분석의 발전은 감성 분석, 고객의 소리 마이닝, 콜센터 최적화 등 여러 분야의 개발을 이끌었다. 2000년대 후반 빅 데이터의 출현은 예측 분석, 근본 원인 분석 등 현대 분야에서 비정형 데이터 분석 응용에 대한 관심을 높였다.