비정형 데이터

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 데이터의 변천
3. 데이터베이스의 변천
4. 비정형 데이터 처리 기술
- 4.1. 자연어 처리 (NLP) 접근 방식
- 4.2. 의학 및 생물 의학 연구 분야의 접근 방식
5. 비정형 데이터 관련 용어 문제
6. 데이터 프라이버시 규정과 비정형 데이터
7. 비정형 데이터 활용 사례
참조

1. 개요

비정형 데이터는 명확하게 정의된 구조를 갖지 않는 데이터를 의미하며, 텍스트, 이미지, 음성, 동영상 등 다양한 형태를 포함한다. 과거에는 관계형 데이터베이스에 구조화된 데이터가 주로 사용되었지만, IT 기술 발전으로 비정형 데이터의 활용이 증가하면서 이를 처리하기 위한 기술이 발전해 왔다. 비정형 데이터 처리에는 데이터 마이닝, 텍스트 마이닝, 자연어 처리, 기계 학습, 패턴 인식, 인공 지능 등 다양한 기술이 활용되며, 검색 엔진도 널리 사용된다. 비정형 데이터는 의학 및 생명 의학 연구 분야에서도 중요한 자료로 활용되며, GDPR과 같은 데이터 프라이버시 규정의 적용을 받기도 한다.

2. 데이터의 변천

과거부터 사람들은 상업 활동이나 자연 현상 등을 기록/측정한 수치를 의미 있는 데이터(정보)로 활용해 왔다. 이러한 수치 데이터를 보다 효율적이고 생산적으로 활용하기 위해 계산기(컴퓨터)가 생겨나 활용이 고도화되면서, 주로 관계형 모델을 기반으로 한 데이터베이스에 구조화하여 저장하고 활용했기 때문에, 그러한 데이터를 나중에 구조화 데이터라고 부르게 되었다. 또한, IT는 조직이나 인간의 다양한 활동을 보다 효율적이고 생산적으로 만들기 위해 수치, 문서, 이미지, 음성, 동영상 등 사람의 커뮤니케이션을 더 잘 표현하는 데이터를 활용하게 되었다. 이러한 데이터는 구조화 데이터라는 분류를 넘어, 완전한 구조 정의를 갖지 않는 반구조화 데이터, 또는 구조 정의를 갖지 않는 '''비정형 데이터'''로 분류되게 되었다.

3. 데이터베이스의 변천

IT 발전에 따라, 조직과 인간의 다양한 활동에서 수치, 문서, 이미지, 음성, 동영상이 데이터로 대량 생성되었다. 최근에는 이들을 통칭하여 빅데이터라고 부르게 되었으며, 이를 저장하고 활용하기 위한 데이터베이스도 진화하였다. 기존 데이터베이스의 질의 언어가 SQL인 데 반해, NoSQL이라고 총칭되는 데이터베이스도 등장하게 되었다. 또한, Hadoop과 같은 분산 파일 시스템도 활용되게 되었다.^[22]

관계형 데이터베이스
객체 지향 데이터베이스
XML 데이터베이스
컬럼 지향 데이터베이스 관리 시스템
인 메모리 데이터베이스
분산 파일 시스템(Hadoop 등)
역색인
문서 지향 데이터베이스
NoSQL

4. 비정형 데이터 처리 기술

데이터 마이닝, 텍스트 마이닝, 자연어 처리(NLP), 기계 학습, 패턴 인식, 인공 지능 등 다양한 기술이 비정형 데이터 처리에 활용된다. 초기에는 비정형 텍스트의 추출 및 분류에 주로 초점을 맞추었으나, 특이값 분해(SVD)를 이용한 차원 축소 등 기술 발전으로 효율적인 분석이 가능해졌다. 2000년대 후반 빅 데이터의 출현으로 비정형 데이터 분석에 대한 관심이 높아졌다.^[11]

텍스트 구조화를 위해 수동으로 메타데이터 태깅을 하거나, 이미지, 음성, 동영상에서 텍스트를 추출하여 텍스트 분석을 통해 메타데이터를 태깅하기도 한다.^[23] 비정형 정보 관리 아키텍처(UIMA) 표준은 비정형 데이터 처리 및 의미 추출을 위한 공통 프레임워크를 제공한다.

검색 엔진은 비정형 데이터, 특히 텍스트를 색인화하고 검색하는 데 널리 사용되는 도구이다. SAS, IBM, SAP (기업), HP 오토노미, 오픈텍스트 등 다양한 기업에서 비정형 데이터 분석 소프트웨어를 제공하고 있으며, 소셜 미디어 분석에 특화된 기업들도 있다.

4. 1. 자연어 처리 (NLP) 접근 방식

데이터 마이닝, 자연어 처리(NLP), 텍스트 분석과 같은 기술은 비정형 데이터에서 정보를 찾아내거나 해석하는 다양한 방법을 제공한다. 수천, 수백만 개의 문서 집합을 처리하기 위해 개발된 특정 계산 워크플로우는 비정형 데이터에 구조를 부여한다. 이러한 접근 방식 중 일부는 온라인 분석 처리(OLAP)의 개념을 기반으로 하며, 텍스트 큐브와 같은 데이터 모델을 활용한다.^[14] 데이터 모델을 통해 문서 메타데이터를 사용할 수 있게 되면, 구문 기반 접근 방식을 사용하여 문서 하위 집합의 요약을 생성할 수 있다.^[15]

4. 2. 의학 및 생물 의학 연구 분야의 접근 방식

생명 의학 연구는 연구자들이 종종 연구 결과를 학술 저널에 발표하기 때문에 주요한 비정형 데이터 소스를 생성한다. 이러한 문서의 언어는 포함된 복잡한 전문 용어와 관찰을 완전히 맥락화하는 데 필요한 도메인 지식 때문에 구조적 요소를 도출하기 어렵지만, 이러한 활동의 결과는 기술 및 의학 연구 간의 링크^[16]와 새로운 질병 치료법에 대한 단서를 얻을 수 있다.^[17] 최근 생명 의학 문서에 구조를 적용하려는 노력에는 문서 간의 주제를 식별하기 위한 자기 조직 지도 접근 방식,^[18] 범용 비지도 학습 알고리즘,^[19] 그리고 단백질 이름과 문헌의 심혈관 질환 주제 간의 연관성을 결정하기 위한 CaseOLAP 워크플로의 적용이 포함된다.^[20] CaseOLAP는 정확하고(관계 식별), 일관적이며(높은 재현성) 효율적인 방식으로 구문-범주 관계를 정의한다. 이 플랫폼은 접근성을 향상시키고 광범위한 생명 의학 연구 응용 분야를 위한 구문 마이닝 도구를 통해 생명 의학 커뮤니티에 힘을 실어준다.^[20]

5. 비정형 데이터 관련 용어 문제

'비정형'이라는 용어는 다음과 같은 이유로 부정확하다고 여겨진다.

구조는 공식적으로 정의되지는 않았지만, 여전히 암시될 수 있다.
어떤 형태의 구조를 가진 데이터라도 해당 구조가 처리 작업에 도움이 되지 않는다면 비정형 데이터로 특징지을 수 있다.
비정형 정보는 어느 정도의 구조(반정형 데이터)를 가질 수도 있고, 심지어 매우 구조화되어 있을 수도 있지만, 예상치 못하거나 공표되지 않은 방식으로 구조화될 수 있다.

6. 데이터 프라이버시 규정과 비정형 데이터

과거 스웨덴(EU)에서는 2018년 이전에 특정 데이터가 "비정형 데이터"로 확인되면 일부 데이터 개인 정보 보호 규정이 적용되지 않았다.^[21] 2018년 GDPR이 발효된 후 EU에서 이러한 "비정형 데이터" 용어는 거의 사용되지 않는다. GDPR은 "비정형 데이터"를 언급하거나 정의하지 않고, 대신 "구조화된"이라는 단어를 다음과 같이 사용한다.

GDPR 고려 사항 15항: "자연인의 보호는 ... 파일 시스템에 포함된 ... 개인 데이터의 처리에 적용되어야 한다."
GDPR 제4조: "'파일 시스템'은 특정 기준에 따라 접근할 수 있는 개인 데이터의 구조화된 집합을 의미한다 ..."

CJEU의 GDPR 판례는 "파일 시스템"을 다음과 같이 정의한다. "설교에 참여하는 각 구성원이 수집한 개인 데이터 세트가 실제로 구조화된 특정 기준과 특정 형식은, 연락을 받은 특정 사람과 관련된 데이터를 '''쉽게 검색'''할 수 있게 하는 한, 관련이 없으며, 이는 주요 소송 사건의 모든 상황을 고려하여 회부 법원이 확인해야 한다." ([https://curia.europa.eu/juris/document/document.jsf?docid=203822&doclang=EN|Jehovan Todistajat v. Tietosuojavaltuutettu, Jehovan, Paragraph 61]).

개인 데이터를 쉽게 검색할 수 있다면, 그것은 파일 시스템이며, "구조화"되었는지 여부와 관계없이 GDPR의 적용을 받는다. 오늘날 대부분의 전자 시스템은 접근 및 적용된 소프트웨어에 따라 데이터의 쉬운 검색을 허용할 수 있다.

7. 비정형 데이터 활용 사례

전산학 연구자 H.P. 루한은 1958년 이른 시기에 비정형 텍스트의 추출 및 분류에 관심을 가졌다.^[8] 21세기에 들어서 기술이 연구를 뒷받침하게 되었다. 2004년, SAS Institute는 특이값 분해(SVD)를 사용하여 고차원 텍스트 공간을 더 작은 차원으로 축소, 효율적인 기계 분석을 가능하게 하는 SAS 텍스트 마이너를 개발했다.^[9] 기계 텍스트 분석의 발전은 감성 분석, 고객의 소리 마이닝, 콜센터 최적화 등 여러 분야의 개발을 이끌었다.^[10] 2000년대 후반 빅 데이터의 출현은 예측 분석, 근본 원인 분석 등 현대 분야에서 비정형 데이터 분석 응용에 대한 관심을 높였다.^[11]

참조

_[1] 웹사이트 Enterprise Information Portals http://ikt.hia.no/pe[...] 1998-11-16
_[2] 웹사이트 Unstructured Data and the 80 Percent Rule http://breakthrougha[...] Clarabridge 2008-08-01
_[3] 논문 Beyond the hype: Big data concepts, methods, and analytics 2015-04
_[4] 뉴스 The biggest data challenges that you might not even know you have - Watson https://www.ibm.com/[...] 2018-10-02
_[5] 웹사이트 Structured vs. Unstructured Data https://www.datamati[...] 2018-10-02
_[6] 웹사이트 EMC News Press Release: New Digital Universe Study Reveals Big Data Gap: Less Than 1% of World's Data is Analyzed; Less Than 20% is Protected http://www.emc.com/a[...] EMC Corporation 2012-12
_[7] 뉴스 Trends {{!}} Seagate US https://www.seagate.[...] 2018-10-01
_[8] 웹사이트 A Brief History of Text Analytics http://www.b-eye-net[...] 2016-06-24
_[9] 웹사이트 Taming Text with the SVD http://ftp.sas.com/t[...] 2016-06-24
_[10] 웹사이트 Applications of Text Analytics http://mybusinessana[...] 2009-08-09
_[11] 웹사이트 Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining https://support.sas.[...] 2016-06-24
_[12] 웹사이트 Structure, Models and Meaning: Is "unstructured" data merely unmodeled? http://www.intellige[...] 2005-03-01
_[13] 웹사이트 Structuring Unstructured Data https://www.forbes.c[...] 2007-04-05
_[14] 서적 2008 Eighth IEEE International Conference on Data Mining IEEE 2008-12
_[15] 웹사이트 Multi-Dimensional, Phrase-Based Summarization in Text Cubes http://sites.compute[...] 2016
_[16] 논문 Recent advances in natural language processing for biomedical applications 2006-06
_[17] 논문 Recent Advances and Emerging Applications in Text and Data Mining for Biomedical Discovery 2016-01
_[18] 논문 Visualizing the topical structure of the medical sciences: a self-organizing map approach 2013
_[19] 논문 Unsupervised discovery of information structure in biomedical documents 2015-04-01
_[20] 논문 Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease 2018-10-01
_[21] 웹사이트 Swedish data privacy regulations discontinue separation of "unstructured" and "structured" https://sverigeskomm[...]
_[22] 웹사이트 Updated Data Platforms Landscape Map – February 2014 http://blogs.the451g[...]
_[23] 웹사이트 Two Worlds of Data – Unstructured and Structured http://www.informati[...]
_[24] 웹인용 A Brief History of Text Analytics http://www.b-eye-net[...] 2016-06-24
_[25] 웹인용 Taming Text with the SVD ftp://ftp.sas.com/te[...] 2016-06-24

비정형 데이터

1. 개요

2. 데이터의 변천

3. 데이터베이스의 변천

4. 비정형 데이터 처리 기술

4. 1. 자연어 처리 (NLP) 접근 방식

4. 2. 의학 및 생물 의학 연구 분야의 접근 방식

5. 비정형 데이터 관련 용어 문제

6. 데이터 프라이버시 규정과 비정형 데이터

7. 비정형 데이터 활용 사례

참조

관련 사건 타임라인

넷앱, 오브젝트 스토리지 ‘스토리지그리드 12.0’ 발표 – 바이라인네트워크

델테크놀로지스, 엔비디아·엘라스틱과 AI 데이터 플랫폼 강화 – 바이라인네트워크

“SQL로 비정형 데이터까지 분석” – 바이라인네트워크

크라우드웍스, 문서 복잡도 분석 기술 특허 출원 – 바이라인네트워크

크라우드웍스, ‘AI 데이터 전처리 기술’ 국내 특허 출원… 업계 최초

스노우플레이크, AI 에이전트 ‘코텍스 에이전트’ 출시 – 바이라인네트워크

사이버다임, 고려대와 비정형 데이터 보안·SBOM 보안 점검 자동화 기술 공동 연구 – 바이라인네트워크

델 테크놀로지스 포럼 2024에 등장한 AI 하드웨어들 – 바이라인네트워크

넥스원소프트, 한국소비자원에 AI 비정형 가명처리 솔루션 구축 – 바이라인네트워크

퓨어스토리지, 가트너 매직 쿼드런트 ‘리더’ 선정 – 바이라인네트워크

AI로 비정형 데이터 검색도 빠르게…개발자 혁신 지원하는 몽고DB – 바이라인네트워크

“비정형 데이터에서도 민감정보 탐지”…파수, FDR 2.2 출시 – 바이라인네트워크

스노우플레이크, 안전한 생성AI 실행 위한 스노우파크 컨테이너 출시...프로그래밍 기능 확장 – 바이라인네트워크

[인터뷰] 카우치베이스 “NoSQL에 대한 예상 뛰어 넘겠다” – 바이라인네트워크

파수, 비정형 데이터 개인정보 탐지`보호하는 AI 솔루션 출시 – 바이라인네트워크

파수닷컴 “비정형데이터와 애플리케이션 ‘보안과 생산성’ 확보 지원 주력” – 바이라인네트워크

“효과적인 데이터 보안, 첫 걸음은 ‘식별과 분류’” – 바이라인네트워크