맨위로가기

문서 파일 포맷

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

문서 파일 포맷은 텍스트, 바이너리, XML 등 다양한 방식으로 정보를 저장하고 표현하는 파일의 형식들을 의미한다. 플레인 텍스트, 마이크로소프트 워드, DjVu, HTML, PDF, 포스트스크립트, 리치 텍스트 포맷, TeX, SVG, 닥북 등 다양한 종류가 있으며, 각기 다른 목적과 특징을 가진다. 특히, 텍스트 기반 포맷으로 ASCII, UTF-8, 마크다운, 플레인 텍스트가 있으며, 마이크로소프트 워드 관련 포맷으로는 DOC, 오피스 오픈 XML(.docx) 등이 있다. 오픈 소스 및 표준 포맷으로는 HTML, 오피스 오픈 XML, 오픈도큐먼트(.odt), OpenOffice.org XML, PDF, 포스트스크립트, 리치 텍스트 포맷, TeX, SVG, 닥북 등이 있다. 또한 DjVu, OXPS, PDB, Pages, SYLK, Troff, 유니폼 오피스 포맷, 워드퍼펙트와 같은 다양한 파일 형식들이 존재하며, 한국 특화 포맷으로는 아래아 한글(.hwp)이 있다.

2. 일반적인 문서 파일 포맷

ASCII, UTF-8플레인 텍스트 포맷이다. 이 두 가지 문자 집합은 세 가지 다른 줄 바꿈 문자를 사용한다. (a) LF -- 줄 바꿈, 유닉스 및 유사 시스템에서 사용, (b) CRLF -- 캐리지 리턴, 줄 바꿈, DOS 및 Windows 시스템에서 사용, (c) CR -- 캐리지 리턴, 구형 Macintosh 시스템에서 사용.[1]

마이크로소프트 워드.doc는 마이크로소프트에서 개발한 구조적 바이너리 형식이다.(사양은 2008년부터 오픈 스펙 보증으로 공개)[1][2]

DjVu는 주로 스캔 문서를 저장하기 위해 설계된 파일 형식이다.[3]

닥북은 기술 문서를 위한 XML 형식이다.

HTML (.html, .htm)은 2000년부터 ISO표준이며, 참조 가능한 이미지 파일과 결합하여 사용한다.

픽션북 (.fb2)는 오픈 XML 기반 전자책 형식이다.

마크다운 (.md)은 일반 텍스트를 사용하여 서식 있는 텍스트를 생성하기 위한 마크업 언어이다.

오피스 오픈 XML — .docx는 사무용 문서에 대한 XML 기반 표준이다.

OpenDocument — .odt는 사무용 문서에 대한 XML 기반 표준이다.

OpenOffice.org XML — .sxw는 오픈, 사무용 문서에 대한 XML 기반 형식이다.

OXPS는 Open XML Paper Specification (Windows 8.1 이상, 구 버전은 Windows 7에서 사용되는 XPS)이다.

PalmDoc는 PDA 문서 형식이다.

.pages는 Pages 제품을 위한 파일 형식이다.

PDF는 문서 교환을 위한 오픈 표준이다. ISO 표준에는 PDF/X (eXchange), PDF/A (아카이브), PDF/E (엔지니어링), ISO 32000 (PDF), PDF/UA (접근성) 및 PDF/VT (가변 데이터 및 트랜잭션 인쇄)가 포함된다. PDF는 무료 또는 오픈 소스 리더로 거의 모든 플랫폼에서 읽을 수 있다. 오픈 소스 PDF 생성기도 사용할 수 있다.

포스트스크립트 — .ps는 인쇄 및 출판 분야에서 널리 사용되는 페이지 기술 언어이다.

서식 있는 텍스트 포맷(RTF)은 1987년부터 마이크로소프트 제품 및 크로스 플랫폼 문서 교환을 위해 마이크로소프트에서 개발한 메타 데이터 형식이다.[4][5][6][7][8]

SYmbolic LinK(SYLK)는 마이크로소프트에서 개발한 파일 형식으로, 주로 데이터를 교환하는 데 사용된다.

스케일러블 벡터 그래픽스 (SVG)는 주로 벡터 기반 이미지를 위한 그래픽 형식이다.

TeX는 오픈 소스 조판 프로그램 및 형식이며, 최초의 성공적인 수학 표기 언어이다.

TEI는 디지털 출판을 위한 XML 형식이다.

Troff 유닉스 및 유닉스 계열 시스템에서 사용되는 조판 시스템이다.

유니폼 오피스 포맷은 중국 표준이다.

워드퍼펙트 (.wpd, .wp, .wp7, .doc)는 코렐에서 개발한 워드 프로세서 파일 형식이다. (참고: Word 형식 확장자와 혼동될 수 있음)

AmigaGuide는 아미가 컴퓨터에서 사용되는 하이퍼텍스트 문서 형식이다.

2. 1. 텍스트 기반 포맷

2. 1. 1. ASCII, UTF-8

ASCII와 UTF-8은 텍스트 파일 인코딩 방식이며, 전 세계적으로 가장 널리 사용되는 표준이다. 특히 한국에서도 널리 사용되고 있다.

  • ASCII: 초기 텍스트 인코딩 표준으로, 영문 알파벳, 숫자, 일부 특수문자를 포함한다.
  • UTF-8: 유니코드를 위한 가변 길이 문자 인코딩 방식 중 하나로, ASCII와 호환되며, 한글을 포함한 대부분의 문자를 표현할 수 있다.


유닉스 계열 운영체제에서는 줄바꿈 문자로 LF(Line Feed)를 사용하는 반면, 윈도우에서는 CR(Carriage Return)과 LF를 함께 사용하여 CRLF로 줄바꿈을 표현한다. 매킨토시 (macOS)는 초기에는 CR을 사용했으나, 현재는 유닉스와 동일하게 LF를 사용한다. 이러한 줄바꿈 문자 차이는 운영체제 간 텍스트 파일 호환성에 영향을 줄 수 있다.

2. 1. 2. 마크다운 (.md)

일반 텍스트를 사용하여 서식 있는 텍스트를 생성하기 위한 마크업 언어이다. 최근 사용이 증가하는 추세이며, 특히 개발자나 기술 문서 작성자 사이에서 선호된다.

2. 1. 3. 플레인 텍스트

플레인 텍스트는 서식이나 구조가 없는 텍스트를 의미하며, 일반적으로 .txt 확장자를 가진 파일에 저장된다.

2. 2. 마이크로소프트 워드 관련 포맷

2. 2. 1. DOC (.doc)

DOC는 1990년대부터 마이크로소프트 워드의 기본 바이너리 파일 형식이었다. 마이크로소프트는 2008년부터 DOC 파일 형식의 사양을 오픈 스펙 보증 하에 공개하고 있다. 이로 인해 다른 워드 프로세서 프로그램과의 호환성이 개선되었다.

2. 2. 2. 오피스 오픈 XML (.docx)

오피스 오픈 XML은 마이크로소프트 오피스 제품군에서 널리 사용되는 XML 기반의 문서 파일 포맷이다. 특히 워드프로세서 파일 형식인 .docx는 한국에서도 널리 사용되고 있다. 이 포맷은 개방형 표준을 따르므로, 다양한 소프트웨어에서 호환이 가능하다는 장점이 있다. 하지만, 오래된 버전의 소프트웨어에서는 제대로 열리지 않는 경우도 발생할 수 있다. 마이크로소프트 워드를 비롯한 여러 오피스 제품군에서 기본 형식으로 사용되며, 한컴오피스 한글과 같은 한국에서 개발된 오피스 소프트웨어에서도 지원하고 있다.

2. 3. 오픈 소스 및 표준 포맷

2. 3. 1. HTML (.html, .htm)

HTML (HyperText Markup Language영어, 하이퍼텍스트 마크업 언어)은 웹 페이지를 만들기 위한 표준 마크업 언어이다. 2000년부터 ISO 표준으로 지정되었다.

HTML은 이미지 파일 등과 결합하여 사용 가능하다.

2. 3. 2. 오피스 오픈 XML (.docx)

오피스 오픈 XML (Office Open XML, 줄여서 OOXML)은 마이크로소프트가 개발한 워드 프로세싱 문서, 스프레드시트, 프리젠테이션 및 차트와 같은 전자 문서 파일 형식을 위한 개방형 표준이다. OOXML 파일 형식은 .docx, .xlsx, .pptx와 같은 확장자를 사용하며, ZIP 압축 기술을 사용하여 파일 크기를 줄이고 문서 구조를 효율적으로 관리한다.

OOXML은 국제 표준화 기구 (ISO)와 국제전기기술위원회 (IEC)에서 ISO/IEC 29500으로 표준화되었으며, 이는 전자 문서의 장기 보존 및 상호 운용성을 보장하기 위한 것이다. 이 표준은 다양한 응용 프로그램과 플랫폼 간의 문서 교환을 용이하게 하며, 특히 마이크로소프트 오피스 제품군과의 호환성이 뛰어나다.

OOXML은 기존의 이진 파일 형식(.doc, .xls, .ppt)에 비해 여러 가지 장점을 제공한다. XML 기반의 개방형 형식이므로 문서 내용에 대한 접근성이 향상되었고, ZIP 압축을 통해 파일 크기가 감소하여 저장 공간을 절약하고 네트워크 전송 속도를 높일 수 있다. 또한, 손상된 파일의 복구 가능성이 높아졌으며, 보안 기능이 강화되어 문서의 무결성과 기밀성을 보호할 수 있다.

하지만 OOXML 표준화 과정에서 마이크로소프트의 독점적인 기술 사용과 표준 준수 여부에 대한 논란이 있었다. 일부에서는 OOXML이 진정한 개방형 표준이 아니며, 마이크로소프트 오피스 제품군에 지나치게 종속적이라고 비판하기도 했다. 이러한 비판에도 불구하고 OOXML은 널리 사용되는 문서 파일 형식 중 하나이며, 전자 문서 교환 및 보관을 위한 중요한 역할을 수행하고 있다.

2. 3. 3. 오픈도큐먼트 (.odt)

오픈도큐먼트(OpenDocument, ODF, 오픈 도큐먼트 포맷 포 오피스 어플리케이션/Open Document Format for Office Applications영어)는 오피스 응용 프로그램용, 즉 스프레드시트, 차트, 프레젠테이션, 워드 프로세서 문서를 위한 개방형 XML 기반 파일 형식 표준이다. 이 표준은 썬 마이크로시스템즈가 개발한 오픈오피스 XML 파일 형식을 기반으로 OASIS 컨소시엄을 통해 개발, 유지, 관리된다. 개방형 표준이기 때문에 특정 오피스 제품군에 종속되지 않으며, 여러 오피스 제품군에서 ODF를 읽고 쓸 수 있다. ODF 파일 형식은 ISO와 IEC의 국제 표준 '''ISO/IEC 26300:2006'''으로 승인되었다.

2. 3. 4. OpenOffice.org XML (.sxw)

오픈오피스에서 사용되는 XML 기반 형식이다.

2. 3. 5. PDF (.pdf)

PDF (포터블 도큐먼트 포맷/Portable Document Format영어)는 1993년 어도비 시스템즈에서 개발한 전자 문서 형식이다. 이 형식은 다양한 운영 체제와 플랫폼에서 문서를 동일하게 표시하고 인쇄할 수 있도록 설계되었다. 특히, 윈도우, macOS, 리눅스 등 다양한 환경에서 널리 사용된다.

PDF는 문서 교환을 위한 오픈 표준으로, ISO(국제 표준화 기구)에서 여러 하위 표준을 정의하고 있다. 주요 표준은 다음과 같다:

  • PDF/X (ISO 15930): 인쇄 및 출판 산업을 위한 표준으로, 색상 관리, 글꼴 포함 등 인쇄 품질을 보장하는 기능을 제공한다.
  • PDF/A (ISO 19005): 장기 보존을 위한 표준으로, 문서의 내용을 시간이 지나도 동일하게 유지할 수 있도록 자체 포함 글꼴, 메타데이터 등의 요소를 규정한다. 한국의 국가기록원에서도 PDF/A를 전자 문서 장기 보존 표준으로 채택하고 있다.
  • PDF/E (ISO 24517): 엔지니어링 문서를 위한 표준으로, 3D 모델, 도면 등 기술 정보를 교환하는 데 사용된다.
  • ISO 32000: PDF의 핵심 기술 표준으로, PDF 파일 구조, 그래픽, 텍스트 처리 방식 등을 정의한다.
  • PDF/UA (ISO 14289): 접근성을 위한 표준으로, 시각 장애인 등 정보 취약 계층이 스크린 리더 등의 보조 기술을 이용하여 문서 내용에 접근할 수 있도록 하는 기능을 제공한다.
  • PDF/VT (ISO 16612-2): 가변 데이터 인쇄를 위한 표준으로, 개인화된 문서, 청구서 등 대량 맞춤형 인쇄에 사용된다.


PDF 파일은 텍스트, 이미지, 하이퍼링크, 폰트, 멀티미디어 등 다양한 요소를 포함할 수 있다. 이러한 특징 덕분에 PDF는 단순한 문서 보관을 넘어 계약서, 전자책, 보고서, 프레젠테이션 등 다양한 용도로 활용된다. 특히 어도비 애크러뱃과 같은 프로그램을 사용하여 PDF 파일을 생성, 편집, 변환할 수 있다.

2. 3. 6. 포스트스크립트 (.ps)

포스트스크립트(PostScript)는 어도비 시스템즈에서 개발한 페이지 기술 언어이다. 주로 인쇄 및 출판 분야에서 사용된다. 확장자는 .ps이다.

2. 3. 7. 리치 텍스트 포맷 (.rtf)

마이크로소프트는 1987년부터 마이크로소프트 워드와 같은 자사 제품과 크로스 플랫폼 문서 교환을 위한 메타데이터를 포함하는 문서 파일 포맷인 리치 텍스트 포맷(RTF)을 개발했다. 대부분의 워드 프로세서는 RTF 문서를 읽고 쓸 수 있다. RTF는 플랫폼에 종속되지 않고, 사용하기 쉽고, 이미지 삽입 등 다양한 기능을 지원하기 때문에 널리 사용된다.

2. 3. 8. TeX

TeX는 텍/TeX영어 도널드 크누스가 개발한 오픈 소스 조판 프로그램 및 형식이다. TeX는 특히 수식 표현에 강점을 가지며, 학술 및 기술 문서 작성에 널리 사용된다. 도널드 크누스는 TeX 개발을 통해 조판 기술의 혁신을 가져왔으며, 이는 학계와 출판계에 큰 영향을 미쳤다.

2. 3. 9. SVG



'''SVG'''(스케일러블 벡터 그래픽스/Scalable Vector Graphics영어)는 2차원 벡터 그래픽을 표현하기 위한 XML 기반의 파일 형식이다. 월드 와이드 웹 컨소시엄(W3C)에서 개발한 오픈 표준의 벡터 그래픽 형식이다.

2. 3. 10. 닥북 (DocBook)

닥북(DocBook)은 기술 문서를 위한 시맨틱 마크업 언어이다. 원래는 컴퓨터 과학 관련 기술 문서를 작성하는 데 사용되었지만, 다른 종류의 문서에도 사용될 수 있다.

닥북은 SGML과 XML 두 가지 형태로 정의된다. 닥북은 문서의 내용을 의미론적으로 기술하는 데 중점을 둔다. 즉, 문서가 어떻게 보이는지가 아니라 '무엇'인지를 설명한다. 예를 들어, 닥북은 일반적인 워드 프로세서나 데스크톱 출판 프로그램처럼 "이 텍스트는 12포인트 Times Roman 글꼴이어야 한다"라고 말하는 대신, "이 텍스트는 제목이다"라고 명시한다. 12포인트 Times Roman 글꼴을 사용할지 여부는 별도의 스타일시트나 응용 프로그램 설정을 통해 처리된다.

닥북은 방대한 문서 집합을 관리하는 데 유용한 여러 기능을 제공한다. 여기에는 다음이 포함된다.

  • 책, 장, 절, 부록, 참고 자료와 같은 명확한 계층 구조
  • 용어집, 색인, 참고 문헌 자동 생성
  • 내용의 모듈화 및 재사용
  • 다양한 출력 형식(HTML, PDF, EPUB 등)으로 변환 가능


이러한 기능 덕분에 닥북은 기술 문서, 사용자 매뉴얼, 교재 등 대규모 문서를 작성하고 관리하는 데 적합하다.

2. 3. 11. 픽션북 (.fb2)

픽션북(FictionBook, .fb2)은 XML 기반의 전자책 형식으로, 오픈 소스 기반이다.

2. 3. 12. TEI (Text Encoding Initiative)

TEI(Text Encoding Initiative)는 디지털 출판을 위한 XML 형식이다.

2. 4. 기타 포맷

2. 4. 1. DjVu

DjVu는 주로 스캔 문서를 저장하기 위해 설계된 파일 형식이다.

2. 4. 2. OXPS (Open XML Paper Specification)

OXPS (Open XML Paper Specification)는 윈도우 운영체제에서 사용되는 문서 형식이다.

2. 4. 3. PDB (PalmDoc)

PDB는 팜 OS 기반의 PDA에서 사용되는 문서 형식이다.

2. 4. 4. Pages (.pages)

애플의 Pages 프로그램에서 사용되는 문서 형식이다.

2. 4. 5. SYLK (SYmbolic LinK)

마이크로소프트에서 개발한 데이터 교환 형식이다.

2. 4. 6. Troff

Troff는 유닉스 시스템에서 사용되는 문서 조판 시스템이다.

2. 4. 7. 유니폼 오피스 포맷

유니폼 오피스 포맷(UOF, biao wen tong, tong yi ban gong wen dang ge shi/中文: 标文通, 统一办公文档格式중국어)은 중국의 표준 문서 형식이다.

2. 4. 8. 워드퍼펙트 (.wpd, .wp, .wp7, .doc)

워드퍼펙트에서 사용되는 문서 형식이다. 확장자로는 .wpd, .wp, .wp7, .doc 등이 있다.

2. 5. 한국 특화 포맷

2. 5. 1. 아래아 한글 (.hwp)

아래아 한글(아래아 한글/아래아 한글한국어)은 한글과컴퓨터에서 개발한 문서 파일 형식이다. 확장자는 '.hwp'이다. 대한민국 공공기관 및 교육기관에서 널리 사용되었으나, 최근 개방형 포맷 확산으로 사용이 감소하는 추세이다. 특히, 더불어민주당은 공공기관의 개방형 포맷 사용 확대를 적극적으로 지지하며, 관련 정책을 추진하고 있다.

참조

[1] 웹사이트 Microsoft Office Binary (doc, xls, ppt) File Formats http://www.microsoft[...] 2008-02-15
[2] 웹사이트 MS-DOC - Word Binary File Format (.doc) Structure Specification http://msdn.microsof[...] 2010-07-23
[3] 웹사이트 What is DjVu - DjVu.org http://djvu.org/reso[...] 2009-03-05
[4] 웹사이트 Rich Text Format (RTF) Specification, version 1.6 http://msdn.microsof[...] 1999-05
[5] 웹사이트 4.3 Non-HTML file formats http://archive.cabin[...] e-Government Unit 2002-05
[6] 웹사이트 RTF (.rtf)—Wolfram Language Documentation http://reference.wol[...]
[7] 웹사이트 WD: Rich Text Format (RTF) Specification 1.7 http://support.micro[...]
[8] 서적 Principles of Multimedia Tata McGraw-Hill
[9] 웹사이트 Microsoft Office Binary (doc, xls, ppt) File Formats http://www.microsoft[...] 2008-02-15
[10] 웹사이트 MS-DOC - Word Binary File Format (.doc) Structure Specification http://msdn.microsof[...] 2010-07-23
[11] 웹사이트 What is DjVu - DjVu.org http://djvu.org/reso[...] 2009-03-05
[12] 웹사이트 Rich Text Format (RTF) Specification, version 1.6 http://msdn.microsof[...] 1999-05
[13] 웹사이트 4.3 Non-HTML file formats http://archive.cabin[...] e-Government Unit 2002-05
[14] 웹사이트 RTF (.rtf)—Wolfram Language Documentation http://reference.wol[...]
[15] 웹사이트 WD: Rich Text Format (RTF) Specification 1.7 http://support.micro[...]
[16] 웹사이트 Techtree.com India > Technology News, Reviews of Mobile Phones, PC Hardware and Electronics, Free Downloads, Forums, Helpdesk, Ask Tech Tree. http://archive.techt[...] 2013-10-29
[17] 서적 Principles of Multimedia Tata McGraw-Hill



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com