Metadata stream
Metadata streamは、PDF内の特殊なstreamオブジェクトで、文書のプロパティと特性を記述する構造化されたXMP(Extensible Metadata Platform)メタデータを含みます。
Metadata streamは、PDF内の特殊なstreamオブジェクトで、文書のプロパティと特性を記述する構造化されたXMP(Extensible Metadata Platform)メタデータを含みます。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によれば、このstreamは、さまざまなアプリケーションで拡張・処理可能なXMLベースのメタデータを使用して文書情報を埋め込むための標準化された方法を提供します。従来のDocument Information Dictionaryとは異なり、Metadata streamはより複雑で拡張可能なメタデータスキーマをサポートします。
Metadata streamは、XMP仕様に準拠したXML形式のメタデータを含むPDFファイル内のstreamオブジェクトです。このstreamは、Document Catalog(またはページや画像などの他のオブジェクト)から/Metadataエントリを通じて参照され、/Typeが/Metadataに、/Subtypeが/XMLに設定されている必要があります。streamの内容は、作成者、作成日、著作権情報、アクセシビリティ機能、カスタムメタデータフィールドなどのプロパティを記述するRDF(Resource Description Framework)データを含むXMPパケットで構成されます。
Metadata streamは、Document Information Dictionary(Info dictionary)といくつかの重要な点で異なります。Info dictionaryは事前定義されたエントリを持つシンプルなキー・バリュー構造を使用しますが、Metadata streamはXMLを使用し、ネストされた構造、名前空間、拡張可能なスキーマをサポートします。Metadata streamは、特に ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) において、最新のPDF仕様で推奨されるメカニズムです。これは、他の文書フォーマットやシステムとの相互運用性を向上させるためです。
PDF文書を扱う開発者にとって、Metadata streamはいくつかの理由で重要です。第一に、アプリケーションがスキーマに対して検証可能な標準化された機械可読形式で文書プロパティを発見・処理できるようにします。第二に、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などのアクセシビリティ標準は、文書をアクセシブルとして識別し、適合レベルを宣言するために特定のメタデータエントリを必要とします。第三に、多くの文書管理システム、検索エンジン、ワークフロー自動化ツールは、PDFファイルを適切にインデックス化、分類、ルーティングするためにXMPメタデータに依存しています。
PDF文書をプログラム的に作成または変更する際、Metadata streamを適切に実装することで、文書がコンプライアンス要件を満たし、エンタープライズシステムとよく統合され、異なるプラットフォームやアプリケーション間で重要な文書情報を保持できるようになります。
Metadata streamは通常、/Metadataエントリを通じてDocument Catalogに添付されますが、個々のページオブジェクト、画像、その他のコンテンツstreamも独自のMetadata streamを持つことができます。streamには、パケットの開始と終了を示す特定の処理命令でラップされたXML文書であるXMPパケットが含まれます。
XMPメタデータは、一般的なプロパティ用の事前定義されたスキーマとともにRDF構文を使用します。たとえば、Dublin Coreスキーマはdc:titleやdc:creatorなどの要素を提供し、PDFスキーマにはpdf:Producerやpdf:Keywordsなどのプロパティが含まれます。Metadata streamは、フィルタなし(非圧縮)でエンコードするか、シンプルなXMLパーサーによるアクセシビリティを確保するために特定の許可されたフィルタのみを使用する必要があります。
PDFプロセッサが文書を読み取る際、Metadata streamを抽出してXMLコンテンツを解析し、文書プロパティを取得できます。XMPの階層的な性質により、複雑なネストされた構造や配列が可能になり、フラットなInfo dictionary構造では不可能なメタデータ要素間の関係を表現できます。アプリケーションは、標準プロセッサとの互換性を維持しながら、ドメイン固有のメタデータを含めるためにカスタム名前空間を追加することもできます。
- Document Catalog – Metadata streamを参照するPDF文書のルートオブジェクト
- XMP (Extensible Metadata Platform) – Metadata stream内で使用されるXMLベースのメタデータフォーマット
- Document Information Dictionary – 基本的な文書メタデータを保存するための従来のキー・バリュー構造
- Stream Object – コンテンツやデータを表すバイトシーケンスを含むPDFオブジェクト
- Tagged PDF – アクセシビリティコンプライアンスのために特定のメタデータ宣言を必要とすることが多い構造化されたPDFフォーマット
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
