아파치 피그

1. 개요

아파치 피그(Apache Pig)는 2006년 야후 연구소에서 개발된 대용량 데이터 세트 처리를 위한 플랫폼으로, 맵리듀스 작업을 쉽게 생성하고 실행할 수 있도록 지원한다. 피그는 피그 라틴(Pig Latin)이라는 자체 프로그래밍 언어를 사용하며, SQL과 비교하여 중첩 관계형 모델 사용, 지연 평가, ETL 지원 등의 특징을 갖는다. 피그는 파이프라인의 어느 지점에서든 사용자 코드를 포함할 수 있어 데이터 처리 흐름을 유연하게 제어할 수 있으며, SQL보다 데이터 처리 스트림 분할에 용이하다.

개발자	아파치 소프트웨어 재단, 야후 리서치
발표일	2008년 9월 11일
최신 버전	0.17.0
최신 버전 발표일	2017년 6월 19일
운영체제	마이크로소프트 윈도우, macOS, 리눅스
프로그래밍 언어	자바
장르	데이터 분석
라이선스	아파치 라이선스 2.0
웹사이트	아파치 피그 공식 웹사이트

2. 역사

아파치 피그(Apache Pig)는 2006년경 야후 연구소에서 연구자들이 매우 큰 데이터 세트에 대해 맵리듀스(MapReduce) 작업을 임시로 생성하고 실행할 수 있도록 개발되었다. 2007년에 아파치 소프트웨어 재단(Apache Software Foundation)으로 이전되었다.

👆

좌우로 밀어서 보기

버전	최초 출시일	최신 버전	출시일
0.1	2008-09-11	0.1.1	2008-12-05
0.2	2009-04-08	0.2.0	2009-04-08
0.3	2009-06-25	0.3.0	2009-06-25
0.4	2009-08-29	0.4.0	2009-08-29
0.5	2009-09-29	0.5.0	2009-09-29
0.6	2010-03-01	0.6.0	2010-03-01
0.7	2010-05-13	0.7.0	2010-05-13
0.8	2010-12-17	0.8.1	2011-04-24
0.9	2011-07-29	0.9.2	2012-01-22
0.10	2012-01-22	0.10.1	2012-04-25
0.11	2013-02-21	0.11.1	2013-04-01
0.12	2013-10-14	0.12.1	2014-04-14
0.13	2014-07-04	0.13.0	2014-07-04
0.14	2014-11-20	0.14.0	2014-11-20
0.15	2015-06-06	0.15.0	2015-06-06
0.16	2016-06-08	0.16.0	2016-06-08
0.17	2017-06-19	0.17.0	2017-06-19

피그 프로그래밍 언어의 이름은 기억하기 쉽고, 철자하기 쉬우며, 참신하다는 이유로 임의로 선택되어 굳어졌다.

프로젝트 초기 연구원들은 이 언어를 단순히 '그 언어'라고 불렀으나, 이후 이름을 붙일 필요성이 생겼다. 한 연구원이 즉흥적으로 '피그(Pig)'를 제안했고, 이 이름이 그대로 사용되었다. 앨런 게이츠(Alan Gates)와 다니엘 다이(Daniel Dai)는 프로그래밍 피그, 2판(2017년 11월)에서 이 이름이 괴짜 같지만 기억하기 쉽고 철자하기도 쉽다고 언급했다. 또한, 이 이름은 언어를 위한 피그 라틴(Pig Latin), 셸을 위한 그런트(Grunt), CPAN과 유사한 공유 저장소를 위한 피기뱅크(PiggyBank)와 같은 재미있는 명명법을 제공했다.

2.1. 개발 배경

아파치 피그(Apache Pig)는 2006년경 야후 연구소에서 연구자들이 매우 큰 데이터 세트에 대해 맵리듀스(MapReduce) 작업을 임시로 생성하고 실행할 수 있도록 개발되었다. 2007년에 아파치 소프트웨어 재단(Apache Software Foundation)으로 이전되었다.

2.2. 버전별 출시 내역

👆

좌우로 밀어서 보기

버전	최초 출시일	최신 버전	출시일
0.1	2008-09-11	0.1.1	2008-12-05
0.2	2009-04-08	0.2.0	2009-04-08
0.3	2009-06-25	0.3.0	2009-06-25
0.4	2009-08-29	0.4.0	2009-08-29
0.5	2009-09-29	0.5.0	2009-09-29
0.6	2010-03-01	0.6.0	2010-03-01
0.7	2010-05-13	0.7.0	2010-05-13
0.8	2010-12-17	0.8.1	2011-04-24
0.9	2011-07-29	0.9.2	2012-01-22
0.10	2012-01-22	0.10.1	2012-04-25
0.11	2013-02-21	0.11.1	2013-04-01
0.12	2013-10-14	0.12.1	2014-04-14
0.13	2014-07-04	0.13.0	2014-07-04
0.14	2014-11-20	0.14.0	2014-11-20
0.15	2015-06-06	0.15.0	2015-06-06
0.16	2016-06-08	0.16.0	2016-06-08
0.17	2017-06-19	0.17.0	2017-06-19

2.3. 프로젝트 명칭 (Pig)

피그 프로그래밍 언어의 이름은 기억하기 쉽고, 철자하기 쉬우며, 참신하다는 이유로 임의로 선택되어 굳어졌다.

프로젝트 초기 연구원들은 이 언어를 단순히 '그 언어'라고 불렀으나, 이후 이름을 붙일 필요성이 생겼다. 한 연구원이 즉흥적으로 '피그(Pig)'를 제안했고, 이 이름이 그대로 사용되었다. 앨런 게이츠(Alan Gates)와 다니엘 다이(Daniel Dai)는 프로그래밍 피그, 2판(2017년 11월)에서 이 이름이 괴짜 같지만 기억하기 쉽고 철자하기도 쉽다고 언급했다. 또한, 이 이름은 언어를 위한 피그 라틴(Pig Latin), 셸을 위한 그런트(Grunt), CPAN과 유사한 공유 저장소를 위한 피기뱅크(PiggyBank)와 같은 재미있는 명명법을 제공했다.

3. 피그 라틴 (Pig Latin)

피그 라틴(Pig Latin)으로 작성된 "단어 수 세기" 프로그램 예시는 다음과 같다.

```pig
input_lines = LOAD '/tmp/my-copy-of-all-pages-on-internet' AS (line:chararray);

-- 각 줄에서 단어를 추출하여 Pig bag 데이터 유형에 넣은 다음, bag을 평탄화하여 각 행에 단어를 하나씩 가져옵니다.
words = FOREACH input_lines GENERATE FLATTEN(TOKENIZE(line)) AS word;

-- 공백만 있는 단어를 필터링합니다.
filtered_words = FILTER words BY word MATCHES '\\w+';

-- 각 단어에 대한 그룹을 생성합니다.
word_groups = GROUP filtered_words BY word;

-- 각 그룹의 항목 수를 계산합니다.
word_count = FOREACH word_groups GENERATE COUNT(filtered_words) AS count, group AS word;

-- 레코드를 수에 따라 정렬합니다.
ordered_word_count = ORDER word_count BY count DESC;
STORE ordered_word_count INTO '/tmp/number-of-words-on-internet';
```

위 프로그램은 인터넷의 모든 웹 페이지와 같은 데이터 세트에서 단어 수를 세기 위해 하둡 클러스터의 여러 컴퓨터에 분산될 수 있는 병렬 실행 작업을 생성한다.

3.1. 특징

3.2. 예제: 워드 카운트 (Word Count)

다음은 피그 라틴으로 작성된 워드 카운트 프로그램 예시이다.

```
input_lines = LOAD '/tmp/my-copy-of-all-pages-on-internet' AS (line:chararray);

-- 각 줄에서 단어를 추출하여 Pig bag 데이터 유형에 넣은 다음, bag을 평탄화하여 각 행에 단어를 하나씩 가져옵니다.
words = FOREACH input_lines GENERATE FLATTEN(TOKENIZE(line)) AS word;

-- 공백만 있는 단어를 필터링합니다.
filtered_words = FILTER words BY word MATCHES '\\w+';

-- 각 단어에 대한 그룹을 생성합니다.
word_groups = GROUP filtered_words BY word;

-- 각 그룹의 항목 수를 계산합니다.
word_count = FOREACH word_groups GENERATE COUNT(filtered_words) AS count, group AS word;

-- 레코드를 수에 따라 정렬합니다.
ordered_word_count = ORDER word_count BY count DESC;
STORE ordered_word_count INTO '/tmp/number-of-words-on-internet';
```

위 프로그램은 Hadoop 클러스터의 여러 컴퓨터에 분산될 수 있는 병렬 실행 작업을 생성하여 데이터 세트에서 단어 수를 계산한다.

4. Pig vs SQL

SQL과 비교하여 피그는 다음과 같은 특징을 갖는다.

* 중첩 관계형 모델을 사용한다.
* 지연 평가를 사용한다.
* 추출, 변환, 적재(ETL)를 사용한다.
* 파이프라인의 어느 시점에서든 데이터를 저장할 수 있다.
* 실행 계획을 선언한다.
* 파이프라인 분할을 지원하므로 워크플로가 엄격한 순차적 파이프라인 대신 DAG를 따라 진행될 수 있다.

데이터가 로드되면 DBMS가 MapReduce 시스템보다 훨씬 빠르다는 주장이 있지만, 데이터 로드에는 데이터베이스 시스템에서 훨씬 더 오래 걸린다. 또한 RDBMS는 열 저장, 압축된 데이터 작업, 효율적인 임의 데이터 접근을 위한 인덱스, 트랜잭션 수준의 내결함성에 대한 즉시 지원을 제공한다.

피그 라틴은 절차적이며 파이프라인 패러다임에 매우 자연스럽게 적합하지만, SQL은 선언적이다. SQL에서 사용자는 두 테이블의 데이터를 조인해야 한다고 지정할 수 있지만, 어떤 조인 구현을 사용할지는 지정할 수 없다(SQL에서 JOIN의 구현을 지정할 수 있으므로 "... 많은 SQL 애플리케이션의 경우 쿼리 작성자는 데이터에 대한 충분한 지식이나 적절한 조인 알고리즘을 지정할 수 있는 전문 지식이 없을 수 있습니다."). 피그 라틴을 사용하면 사용자가 스크립트 실행에 사용할 구현 또는 구현 측면을 여러 가지 방법으로 지정할 수 있다. 실제로 피그 라틴 프로그래밍은 쿼리 실행 계획을 지정하는 것과 유사하므로 프로그래머가 데이터 처리 작업의 흐름을 명시적으로 제어하기가 더 쉽다.

SQL은 단일 결과를 생성하는 쿼리를 중심으로 한다. SQL은 트리를 자연스럽게 처리하지만, 데이터 처리 스트림을 분할하고 각 하위 스트림에 다른 연산자를 적용하는 내장 메커니즘이 없다. 피그 라틴 스크립트는 파이프라인이 아닌 방향 비순환 그래프 (DAG)를 설명한다.

파이프라인의 어느 지점에서든 사용자 코드를 포함할 수 있는 피그 라틴의 기능은 파이프라인 개발에 유용하다. SQL을 사용하는 경우 먼저 데이터를 데이터베이스로 가져온 다음 정제 및 변환 프로세스를 시작할 수 있다.

4.1. Pig의 특징 (SQL 대비)

SQL과 비교하여 피그는 다음과 같은 특징을 갖는다.

* 중첩 관계형 모델을 사용한다.
* 지연 평가를 사용한다.
* 추출, 변환, 적재(ETL)를 사용한다.
* 파이프라인의 어느 시점에서든 데이터를 저장할 수 있다.
* 실행 계획을 선언한다.
* 파이프라인 분할을 지원하므로 워크플로가 엄격한 순차적 파이프라인 대신 DAG를 따라 진행될 수 있다.

데이터가 로드되면 DBMS가 MapReduce 시스템보다 훨씬 빠르다는 주장이 있지만, 데이터 로드에는 데이터베이스 시스템에서 훨씬 더 오래 걸린다. 또한 RDBMS는 열 저장, 압축된 데이터 작업, 효율적인 임의 데이터 접근을 위한 인덱스, 트랜잭션 수준의 내결함성에 대한 즉시 지원을 제공한다.

피그 라틴은 절차적이며 파이프라인 패러다임에 매우 자연스럽게 적합하지만, SQL은 선언적이다. SQL에서 사용자는 두 테이블의 데이터를 조인해야 한다고 지정할 수 있지만, 어떤 조인 구현을 사용할지는 지정할 수 없다(SQL에서 JOIN의 구현을 지정할 수 있으므로 "... 많은 SQL 애플리케이션의 경우 쿼리 작성자는 데이터에 대한 충분한 지식이나 적절한 조인 알고리즘을 지정할 수 있는 전문 지식이 없을 수 있습니다."). 피그 라틴을 사용하면 사용자가 스크립트 실행에 사용할 구현 또는 구현 측면을 여러 가지 방법으로 지정할 수 있다. 실제로 피그 라틴 프로그래밍은 쿼리 실행 계획을 지정하는 것과 유사하므로 프로그래머가 데이터 처리 작업의 흐름을 명시적으로 제어하기가 더 쉽다.

SQL은 단일 결과를 생성하는 쿼리를 중심으로 한다. SQL은 트리를 자연스럽게 처리하지만, 데이터 처리 스트림을 분할하고 각 하위 스트림에 다른 연산자를 적용하는 내장 메커니즘이 없다. 피그 라틴 스크립트는 파이프라인이 아닌 방향 비순환 그래프 (DAG)를 설명한다.

파이프라인의 어느 지점에서든 사용자 코드를 포함할 수 있는 피그 라틴의 기능은 파이프라인 개발에 유용하다. SQL을 사용하는 경우 먼저 데이터를 데이터베이스로 가져온 다음 정제 및 변환 프로세스를 시작할 수 있다.

4.2. SQL의 장점 (Pig 대비)

관계형 데이터베이스 관리 시스템(RDBMS)은 데이터가 로드되면 MapReduce 시스템보다 빠른 처리 속도를 제공한다. 하지만, 데이터 로드에는 데이터베이스 시스템에서 더 오랜 시간이 걸린다. RDBMS는 열 저장, 압축된 데이터 작업, 효율적인 임의 데이터 접근을 위한 인덱스, 트랜잭션 수준의 내결함성을 기본적으로 지원한다.

4.3. 사용자 코드 통합

피그 라틴은 파이프라인의 어느 지점에서든 사용자 코드를 포함할 수 있어 파이프라인 개발에 유용하다. SQL을 사용하는 경우에는 먼저 데이터를 데이터베이스로 가져온 다음 정제 및 변환 프로세스를 시작할 수 있다.