데이터 처리

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

데이터 처리는 관측 가능한 현상의 측정값을 나타내는 데이터, 즉 수나 문자를 처리하는 과정을 의미한다. 1970년대에는 컴퓨터 시스템을 가리키는 용어로 사용되었으나, 이후 정보 시스템, IT 시스템 등의 용어로 대체되었다. 데이터 처리는 데이터 유효성 검사, 정렬, 요약, 집계, 분석, 보고, 분류 등 다양한 프로세스를 포함하며, 상업 데이터 처리, 데이터 분석 등 다양한 분야에서 활용된다. 데이터 처리 시스템은 기계, 사람, 프로세스의 조합으로, 입력 데이터를 처리하여 정의된 출력을 생성한다.

2. 역사

데이터 처리는 일반적으로 컴퓨터에서 자동으로 실행된다. 자료가 올바르게 표현되면 편리하고 실용적인 정보가 되기 때문에, 데이터 처리 시스템은 실용성을 강조하기 위해 정보 시스템이라고도 불렸다. 데이터 처리 시스템은 자료를 조작해 정보를 만들고, 정보 시스템은 자료를 입력하여 정보를 출력한다는 점에서 거의 같은 뜻으로 쓰인다.

일반적으로 데이터 처리는 데이터를 기존 형식에서 다른 형식으로 변환하는 과정이라고 정의할 수 있다. 그러나 이 뜻에는 데이터 변환이라는 용어가 더 적절하다. 데이터 처리는 정보를 데이터로, 데이터를 정보로 변환하는 과정을 모두 가리킨다. 데이터 처리와 데이터 변환의 차이는, 데이터 변환에서는 응답해야 할 쿼리가 필요하지 않다는 점이다. 예를 들어, 영어 문장을 형성하는 문자열(string) 형식의 정보는 키보드 입력을 통해 인코딩되어 하드웨어 방식의 코드가 되고, 아스키 코드로 바뀐 다음 글꼴로 변환되어 디스플레이에 표시된다. 이는 최종적으로 인간이 이해할 수 있는 의미 있는 정보가 되는 예시이다.

하지만 이러한 예는 데이터 처리보다는 전송 시스템이나 운영 체제에 의한 하드웨어 제어 관점에서 주로 언급된다. 데이터 처리라는 용어는 일반적으로 업무를 위한 다수의 데이터를 모아 정보 이용자들이 쓰기 쉽도록 가치 있는 정보로 제시하는 과정에서 비롯되었다.

과학 기술 자료를 처리할 때는 데이터 처리보다 더 정확한 용어인 데이터 분석이 사용된다. 데이터 분석은 비즈니스 분야에서는 보기 힘든, 매우 전문적이고 정확한 알고리즘 도출과 통계 계산을 가리킨다. 이러한 문화적 차이는 데이터 처리와 데이터 분석의 수치 표현에도 나타난다. 데이터 처리에는 정수 또는 고정 소수점이나 2진/10진수의 실수 표현이 사용되지만, 데이터 분석에는 부동소수점(실수) 표현이 많다.

자연계의 여러 과정도 압력이나 빛 등의 정보에 따라 관측되는 데이터 처리 시스템으로 볼 수 있다. 이러한 정보는 인간의 신경계를 통해 전기 신호로 변환된다. 무생물 간의 상호 작용도 일종의 정보처리 시스템으로 볼 수 있다. 그러나 데이터 처리나 정보 시스템이라는 용어는 일반적으로 비즈니스 환경에서 반복되는 알고리즘 도출, 논리적 추론, 통계적 계산에 한정되어 사용되며, 실생활의 모든 정보 변환 과정을 가리키는 것은 아니다.

1950년대부터 '데이터 처리'라는 용어가 널리 사용되었지만,^[3] 데이터 처리 기능은 수천 년 동안 수동으로 수행되어 왔다. 1970년대에는 컴퓨터 시스템을 가리키는 용어로 데이터 처리 시스템이 자주 사용되었으나, 이후 '정보'라는 단어를 사용한 정보 시스템, IT 시스템, 경영 정보 시스템 등의 새로운 용어가 등장하면서 데이터 처리 시스템이라는 용어는 점차 대체되었다.

데이터 처리는 데이터 수나 문자로서 정의되어 관측 가능한 현상의 측정값을 나타낸다. 하나의 데이터(datum)는 관측된 현상의 하나의 측정값이다. 측정 정보는 여러 개의 자료로부터 알고리즘에 따라 도출되거나, 논리적으로 연역되거나, 통계적으로 계산되어 얻을 수 있다. 정보는 쿼리(query)에 대한 응답으로 정의할 수 있다.

2. 1. 수동 데이터 처리

미국 인구조사국의 역사는 수동 절차에서 전자 절차로의 데이터 처리 발전 과정을 보여준다.^[3] 1950년대부터 '데이터 처리'라는 용어가 널리 사용되었지만, 데이터 처리 기능은 수천 년 동안 수동으로 수행되어 왔다. 예를 들어, 부기는 거래를 기록하고 대차대조표 및 현금 흐름표와 같은 보고서를 생성하는 기능을 포함한다. 완전히 수동적인 방식은 기계식 계산기 또는 전자 계산기의 적용으로 보완되었다. 수동으로 또는 계산기를 사용하여 계산을 수행하는 직업을 가진 사람은 "컴퓨터"라고 불렸다.

1890년 미국 인구 조사는 가구가 아닌 개인별로 데이터를 수집한 최초의 사례였다. 양식의 해당 상자에 체크 표시를 하여 여러 질문에 답할 수 있었다. 1850년부터 1880년까지 인구 조사국은 "요구되는 분류 조합의 수가 증가함에 따라 점점 더 복잡해지는 집계 시스템을 사용했다. 한 번의 집계에서 제한된 수의 조합만 기록할 수 있었으므로, 독립적인 집계만큼 5~6번 일정을 처리해야 했다."^[4] "1880년 인구 조사의 결과를 수동 처리 방식으로 발표하는 데 7년 이상이 걸렸다"^[5]

2. 2. 자동 데이터 처리

미국 인구조사국의 역사는 수동 절차에서 전자 절차로 데이터 처리가 발전해 온 과정을 보여준다. 자동 데이터 처리라는 용어는 유닛 레코드 장비와 같은 장치로 수행되는 작업에 적용되었는데, 일례로 허먼 홀러리스가 천공 카드 장비를 1890년 미국 인구 조사에 적용한 경우가 있다.^[5] 홀러리스의 천공 카드 장비 덕분에 인구조사국은 1880년 인구 조사가 7~8년 걸린 것에 비해 1890년 인구 조사 데이터 대부분을 2~3년 만에 완료할 수 있었다.^[5] 홀러리스 시스템을 사용하면 1880년보다 질문이 두 배나 많았음에도 불구하고 약 500만달러의 처리 비용을 절감한 것으로 추정된다.^[5]

2. 3. 전산 데이터 처리 (전자 데이터 처리)

자료는 올바르게 표현되면 편리하고 실용적인 정보가 되기 때문에, 데이터 처리 시스템은 실용성을 강조하기 위해 정보 시스템이라고도 일컬었다. 데이터 처리 시스템이 자료를 조작해 정보를 만드는 데 반해, 정보 시스템은 자료를 입력하여 정보를 출력한다.

일반적으로 데이터 처리는 데이터를 기존의 형식으로부터 다른 형식으로 변환하는 과정이라고 정의할 수 있다. 그러나 그 뜻에는 데이터 변환이라는 용어가 적절하다. 데이터 처리는 정보를 데이터로 변환하는 과정과 데이터를 정보로 변환하는 과정을 가리킨다. 데이터 처리와 데이터 변환의 차이는, 데이터 변환에서는 응답해야 할 쿼리를 필요로 하지 않는다는 점에 있다.

과학 기술 자료를 모아 처리하는 경우, 데이터 처리보다 더 정확한 용어로 데이터 분석이 사용된다. 이때 비즈니스의 분야에서는 별로 볼 수 없는, 매우 전문적으로 정확한 알고리즘의 도출과 통계 계산을 가리킨다. 이러한 문화의 차이는 데이터 처리와 데이터 분석의 수치 표현에도 나타난다. 데이터 처리에는 정수 또는 고정 소수점이나 2진/10진수의 실수 표현이 이용되지만, 데이터 분석에는 부동소수점(실수) 표현이 많다.

1970년대에 컴퓨터 시스템을 가리키는 용어로 데이터 처리 시스템이라는 용어가 자주 쓰였다. 그 뒤 '정보'라는 낱말을 사용한 새로운 용어(정보 시스템, IT 시스템, 경영 정보 시스템 등)가 만들어져 데이터 처리 시스템이라는 용어를 대체하였다.

그러므로 데이터 처리는 데이터 수나 문자로서 정의되어 관측할 수 있는 현상의 측정값을 나타낸다. 하나의 데이터(datum)는 관측된 현상의 하나의 측정값이다. 측정 정보는 여러 개의 자료로부터 알고리즘에 따라 이끌어내거나 논리적으로 연역되거나 통계적으로 계산하는 등의 방법으로 구할 수 있다. 정보는 쿼리(query)의 뜻인 응답으로 정의할 수 있다.

전산 데이터 처리, 또는 전자 데이터 처리는 여러 독립된 장비 대신 컴퓨터를 사용하는 보다 발전된 형태를 나타낸다. 미국 인구조사국은 1952년에 인도된 UNIVAC I 시스템을 사용하여 1950년 미국 인구 조사에 처음으로 제한적으로 전자 컴퓨터를 사용했다.^[4]

2. 4. 정보 기술(IT) 시대

1970년대에 컴퓨터 시스템을 가리키는 용어로 데이터 처리 시스템이라는 용어가 자주 쓰였다. 그 뒤 '정보'라는 낱말을 사용한 새로운 용어(정보 시스템, IT 시스템, 경영 정보 시스템 등)가 만들어져 데이터 처리 시스템이라는 용어를 대체하였다.^[6]

"데이터 처리"라는 용어는 더 일반적인 용어인 "정보기술"(IT)에 의해 대부분 흡수되었다.^[6] 과거 용어인 "데이터 처리"는 오래된 기술을 연상시킨다. 예를 들어, 1996년에 ''데이터 처리 관리 협회(Data Processing Management Association)'' (DPMA)는 이름을 ''정보기술 전문가 협회(Association of Information Technology Professionals)''로 변경했다. 그럼에도 불구하고, 이 용어들은 거의 동의어이다.

3. 기능

데이터 처리는 일반적으로 컴퓨터에서 자동으로 실행된다. 자료는 올바르게 표현되면 편리하고 실용적인 정보가 되기 때문에, 데이터 처리 시스템은 실용성을 강조하기 위해 정보 시스템이라고도 불렀다. 이 용어들은 거의 같은 뜻이며, 데이터 처리 시스템이 자료를 조작해 정보를 만드는 데 반해, 정보 시스템은 자료를 입력하여 정보를 출력한다.

일반적으로 데이터 처리는 데이터를 기존 형식에서 다른 형식으로 변환하는 과정으로 정의할 수 있다. 하지만 그 뜻에는 데이터 변환이라는 용어가 더 적절하다. 데이터 처리와 데이터 변환의 차이는, 데이터 변환에서는 응답해야 할 쿼리가 필요하지 않다는 점이다. 예를 들어, 영어 문장을 형성하는 문자열 형식의 정보는 키보드 입력을 통해 인코딩되어 하드웨어 방식의 코드가 되고, 아스키 코드로 바뀐 다음 글꼴로 변환되어 디스플레이에 표시된다. 이는 최종적으로 인간이 이해할 수 있는 의미 있는 정보가 된다.

하지만 이러한 예는 데이터 처리보다는 전송 시스템이나 운영 체제에 의한 하드웨어 제어 관점에서 주로 언급된다. 데이터 처리라는 용어는 업무를 위해 다수의 데이터를 모아 정보 이용자들이 쓰기 쉽도록 가치 있는 정보로 제시하는 과정에서 비롯되었다.

과학 기술 자료를 처리하는 경우, 데이터 처리보다 더 정확한 용어로 데이터 분석이 사용된다. 이때 비즈니스 분야에서는 보기 힘든, 매우 전문적이고 정확한 알고리즘 도출과 통계 계산을 가리킨다. 이러한 문화 차이는 데이터 처리와 데이터 분석의 수치 표현에도 나타난다. 데이터 처리에는 정수, 고정 소수점, 2진/10진 실수 표현이 사용되지만, 데이터 분석에는 부동소수점 실수 표현이 많이 사용된다.

자연계에서 발생하는 여러 과정도 압력이나 빛 등의 정보에 따라 관측되는 데이터 처리 시스템으로 볼 수 있다. 이러한 정보는 인간의 관찰자에 의해 신경계 안의 전기 신호로 변환된다. 무생물끼리의 상호 작용도 일종의 정보처리 시스템으로 볼 수 있다. 데이터 처리나 정보 시스템이라는 용어의 일반적인 용법은 비즈니스 환경에서 반복되는 알고리즘 도출, 논리적 추론, 통계적 계산에 한정되며, 실생활의 모든 정보 변환 과정을 가리키는 것은 아니다.

데이터 처리는 다음과 같은 다양한 과정을 포함한다.

유효성 검사
정렬
요약
집계
분석
보고
분류

3. 1. 데이터 유효성 검사

유효성 검사는 제공된 데이터가 정확하고 관련성이 있는지 확인하는 과정이다.

3. 2. 정렬

항목을 어떤 시퀀스나 서로 다른 집합으로 정렬하는 것을 의미한다.^[1]

3. 3. 요약

데이터 처리는 다음과 같은 다양한 과정을 포함할 수 있다.

유효성 검사 – 제공된 데이터가 정확하고 관련성이 있는지 확인한다.
정렬 – "항목을 어떤 순서나 서로 다른 집합으로 정렬"한다.
요약(통계) 또는 (자동) – 상세 데이터를 핵심 내용으로 축약한다.
집계 – 여러 데이터 조각을 결합한다.
분석 – "데이터의 수집, 구성, 분석, 해석 및 제시."^[1]
보고 – 상세 또는 요약 데이터 또는 계산된 정보를 나열한다.
분류 – 데이터를 다양한 범주로 구분한다.

3. 4. 집계

집계는 여러 데이터 조각을 결합하는 것을 의미한다.^[1]

3. 5. 분석

데이터 처리는 수집된 데이터를 분석하여 의미있는 정보를 추출하고, 이를 다양한 형태로 제시하는 과정을 의미한다. 이 과정에는 분석이 포함된다. 분석은 "데이터의 수집, 구성, 분석, 해석 및 제시"를 의미한다.^[1]

3. 6. 보고

보고는 상세 데이터나 요약 데이터 또는 계산된 정보를 나열하는 것을 말한다.^[1]

3. 7. 분류

분류는 데이터를 다양한 범주로 구분하는 것을 의미한다.^[1]

4. 응용 분야

데이터 처리의 응용 분야는 크게 상업 데이터 처리와 데이터 분석(Data Analysis)으로 나눌 수 있다. 상업적 데이터 처리는 대량의 데이터를 다루며, 보험 회사의 기록 관리와 같이 비교적 적은 계산 작업과 대량 출력을 포함한다. 반면 데이터 분석은 과학 기술 자료를 처리하는 데 사용되며, SPSS, SAS와 같은 특수 알고리즘과 통계 계산을 활용한다.

4. 1. 상업 데이터 처리

상업적 데이터 처리는 대량의 입력 데이터, 비교적 적은 계산 작업, 그리고 대량의 출력을 포함한다. 예를 들어, 보험 회사는 수십만 또는 수백만 건의 보험 계약에 대한 기록을 보관하고, 청구서를 인쇄 및 발송하며, 지불금을 수령하고 기록해야 한다.^[1]

4. 2. 데이터 분석

데이터 분석은 과학 기술 자료를 모아 처리하는 경우, 데이터 처리보다 더 정확한 용어로 사용된다. 이때 비즈니스 분야에서는 별로 볼 수 없는, 매우 전문적으로 정확한 알고리즘 도출과 통계 계산을 가리킨다. 이러한 문화의 차이는 데이터 처리와 데이터 분석의 수치 표현에도 나타난다. 데이터 처리에는 정수 또는 고정 소수점이나 2진/10진수의 실수 표현이 이용되지만, 데이터 분석에는 부동소수점(실수) 표현이 많다.^[7]

과학 및 공학 분야에서 "데이터 처리"와 "정보 시스템"이라는 용어는 너무 광범위하다고 여겨지며, "데이터 처리"는 일반적으로 전체 데이터 처리의 첫 번째 단계에 사용되고, 두 번째 단계에서 데이터 분석이 뒤따른다.

데이터 분석은 일반적인 비즈니스 환경에서는 자주 사용되지 않는 특수 알고리즘과 통계 계산을 사용한다. 데이터 분석을 위해, SPSS, SAS와 같은 소프트웨어 제품군이나, DAP, gretl, PSPP와 같은 무료 대안이 자주 사용된다. 이러한 도구는 방대한 양의 통계 분석을 처리할 수 있으므로 다양한 대규모 데이터 세트를 처리하는 데 유용하다.

5. 데이터 처리 시스템

데이터 처리 시스템은 일반적으로 컴퓨터에서 자동으로 실행된다. 자료는 올바르게 표현되면 편리하고 실용적인 정보가 되기 때문에, 데이터 처리 시스템은 실용성을 강조하기 위해 정보 시스템이라고도 불렸다. 이러한 용어는 거의 같은 뜻이며, 데이터 처리 시스템이 자료를 조작해 정보를 만드는 데 반해, 정보 시스템은 자료를 입력하여 정보를 출력한다.^[8]

일반적으로 데이터 처리는 데이터를 기존 형식에서 다른 형식으로 변환하는 과정이라고 정의할 수 있다. 그러나 그 뜻에는 데이터 변환이라는 용어가 더 적절하다. 데이터 처리와 데이터 변환의 차이는, 데이터 변환에서는 응답해야 할 쿼리를 필요로 하지 않는다는 점에 있다.

과학 기술 자료를 모아 처리하는 경우, 데이터 처리보다 더 정확한 용어로 데이터 분석이 사용된다. 이때 비즈니스 분야에서는 별로 볼 수 없는, 매우 전문적으로 정확한 알고리즘의 도출과 통계 계산을 가리킨다.

1970년대에 컴퓨터 시스템을 가리키는 용어로 데이터 처리 시스템이라는 용어가 자주 쓰였다. 그 뒤 '정보'라는 낱말을 사용한 새로운 용어(정보 시스템, IT 시스템, 경영 정보 시스템 등)가 만들어져 데이터 처리 시스템이라는 용어를 대체하였다.

데이터 처리는 관측할 수 있는 현상의 측정값을 수나 문자로 정의한다. 측정 정보는 여러 자료로부터 알고리즘에 따라 이끌어내거나, 논리적으로 연역하거나, 통계적으로 계산하여 구할 수 있다. 정보는 쿼리(query)의 응답으로 정의할 수 있다.

'''데이터 처리 시스템'''은 일련의 기계, 사람 및 프로세스의 조합으로, 정의된 일련의 입출력을 생성한다. 입력과 출력은 시스템에 대한 해석자의 관계에 따라 데이터, 사실, 정보 등으로 해석된다.

5. 1. 예시

데이터 처리 시스템의 간단한 예시는 수표 기록부를 유지하는 과정이다. 수표와 예금 같은 거래가 발생하면 이를 기록하고, 거래를 요약하여 현재 잔액을 계산한다. 매달 기록부에 기록된 데이터는 은행에서 처리한 거래 목록과 대조하는데, 이 목록은 동일할 것으로 예상된다.

더 정교한 기록 관리 시스템은 거래를 추가로 구분할 수 있다. 예를 들어, 예금은 출처별로, 수표는 종류별(예: 자선 기부)로 구별한다. 이 정보는 해당 연도의 총 기부금 같은 정보를 얻는 데 사용될 수 있다.

이 예시에서 중요한 점은 모든 거래가 일관되게 기록되고, 매번 같은 은행 조정 방법이 사용되는 '시스템'이라는 것이다.

아래는 채권과 청구, 총계정 원장을 처리하기 위해 수동 처리와 전산 처리를 결합한 데이터 처리 시스템의 순서도이다.

참조

_[1] 서적 Data Processing and Information Technology (10th ed.) https://books.google[...] Thomson
_[2] 웹사이트 data processing http://www.webopedia[...] 2013-06-24
_[3] 서적 Google N gram viewer https://books.google[...] 2013-06-26
_[4] 서적 The development of punch card tabulation in the Bureau of the Census, 1890 https://play.google.[...] United States Department of Commerce
_[5] 서적 100 Years of Data Processing: The Punchcard Century https://play.google.[...] United States Bureau of the Census
_[6] 서적 Google N gram viewer https://books.google[...] 2018-04-28
_[7] 간행물 Importance of statistics to data science 2022-06-01
_[8] 서적 Encyclopedia of Computer Science 4th ed. Nature Publishing Group

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com