Document
PDF用語において、Documentとは、PDF仕様で定義されるPDFファイル全体を指し、電子文書を構成するすべてのコンテンツ、構造、メタデータを包含します。
PDF用語において、Documentとは、PDF仕様で定義されるPDFファイル全体を指し、電子文書を構成するすべてのコンテンツ、構造、メタデータを包含します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。Documentは、ページ、リソース、文書構造、およびPDFのレンダリングと操作に必要なすべての関連データを含む、論理的・物理的な実体全体を表します。Documentは、視覚的なコンテンツからアクセシビリティ情報まで、すべてのPDF要素の最上位コンテナとして機能します。
PDFにおけるDocumentとは、PDF仕様標準に準拠した包括的なファイル実体です。Documentは4つの主要コンポーネントで構成されます:ヘッダー(PDFバージョンの識別)、ボディ(文書コンテンツを構成するオブジェクトを含む)、相互参照テーブル(オブジェクトへのランダムアクセスを提供)、トレーラー(文書階層のルートを指し示す)。
DocumentはPDF内の個別のページやコンテンツストリームとは異なります。Documentは ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているファイル構造全体を表します。ページが特定の視覚的コンテンツを含むのに対し、Documentはすべてのページ、文書カタログ、メタデータ、フォント、画像、および構造要素を包含します。Tagged PDFの文脈では、Documentはアクセシビリティの関係性を定義する論理構造ツリーも含みます ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。
Document概念の理解は、PDF生成、操作、またはアクセシビリティ準拠に取り組む開発者にとって不可欠です。プログラムでPDFファイルを作成する際、開発者はDocument構造が仕様要件に準拠していることを確認する必要があります。特にPDF/UAのような標準では、特定のDocumentレベルのメタデータと構造が義務付けられています ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。
Documentレベルには、タイトル、著者、作成日、アクセシビリティ宣言などの重要なメタデータが存在します。アクセシビリティ準拠のPDFでは、Documentは支援技術が依拠する適切なタグ構造とメタデータを含む必要があります ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。不適切なDocument構造は、検証に失敗したり、適切にインデックス化できなかったり、障害のあるユーザーがアクセスできないファイルを生じさせる可能性があります。
PDF Documentは、明確に定義されたオブジェクト構造を通じて動作します。Documentレベルでは、カタログ辞書がルートオブジェクトとして機能し、ページツリー、文書アウトライン、メタデータストリーム、構造情報への参照を含みます。カタログは、PDFプロセッサがDocument構造全体をナビゲートするためのエントリーポイントとして機能します。
Tagged PDFの場合、Documentはカタログ内にStructTreeRootエントリを含み、論理構造階層を定義します ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。この構造ツリーは、視覚的な表示順序とは独立して、Documentの論理的な読み順序と意味的関係をマッピングします。XMPメタデータストリームに格納されるDocumentレベルのメタデータは、Documentのプロパティ、権利、アクセシビリティ機能に関する機械可読情報を提供します。
Documentの整合性は相互参照テーブルによって維持されます。このテーブルはすべてのオブジェクトとそのバイトオフセットを追跡し、ファイル全体を解析することなく効率的なランダムアクセスを可能にします。Documentへの更新は増分的に追加でき、各増分更新セクションは独自の相互参照情報を含みます。
- Document Catalog – Documentのすべてのコンポーネントにアクセスするためのエントリーポイントとして機能するルート辞書オブジェクト
- Tagged PDF – アクセシビリティとコンテンツの再利用のための構造情報を含むPDF Document
- Metadata – 記述的および技術的プロパティを含む、Documentレベルで保存されるDocumentに関する情報
- Structure Tree – Tagged PDF Document内の論理コンテンツ構造の階層表現
- Page Tree – Document内のすべてのページを整理する階層構造
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
