Metadata extraction

キーワード: metadata extraction, Metadata extraction

概要

Metadata extractionとは、PDFファイル内の様々なメタデータ格納場所から、PDF文書とそのコンテンツに関する構造化された情報をプログラム的に取得するプロセスです。PDF文書は、Document Information Dictionary、XMPメタデータストリーム、および ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されている文書構造自体など、複数の場所にメタデータを含むことができます。このプロセスは、文書管理システム、アクセシビリティツール、およびプロパティに基づいてPDFファイルを識別、分類、または処理する必要のある自動化ワークフローにとって不可欠です。

定義

Metadata extractionとは、PDFファイルに埋め込まれた記述的、管理的、構造的な情報をプログラム的に取得することを指します。単純なファイルプロパティの読み取りとは異なり、metadata extractionはPDF構造内の複数のデータソースを解析することを含みます。これには、レガシーなDocument Information Dictionaryエントリ（Title、Author、Subject、Keywords、Creator、Producer、CreationDate、ModDateなど）と、Dublin Core、PDF固有、またはカスタムメタデータスキーマを含む可能性のある最新のXMP（Extensible Metadata Platform）パケットが含まれます。

抽出プロセスは、文書を変更せずに既存のメタデータの読み取りと解釈のみに焦点を当てる点で、メタデータの作成や編集とは異なります。また、文書に関する情報ではなく、実際のテキスト、画像、またはその他の文書コンテンツを取得するcontent extractionとも異なります。アクセシブルなPDFの場合、metadata extractionには、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で指定されている構造メタデータとタグ情報の取得も含まれる場合があり、これは文書の構成とアクセシビリティ機能に関するコンテキストを提供します。

重要性

文書管理システムを構築する開発者にとって、metadata extractionは検索機能、自動分類、ワークフロールーティングの実装に不可欠です。正確なmetadata extractionにより、アプリケーションはファイル全体のコンテンツを解析することなく文書プロパティを迅速に識別できるため、大規模な文書リポジトリを扱うシステムのパフォーマンスが大幅に向上します。

Metadata extractionは、コンプライアンスとアクセシビリティのワークフローにおいても重要な役割を果たします。アクセシブルなPDFを扱う開発者は、PDF/UAなどの標準への準拠を検証するために構造メタデータを抽出する必要があり、支援技術が依存する適切なタイトル情報と言語仕様が文書に含まれていることを確認します。また、規制対象業界では、監査証跡や法的開示プロセスのために、作成日、著者情報、変更履歴の抽出が必要とされることがよくあります。

Metadata extractionを理解することで、開発者は、優先すべきメタデータソース、異なるメタデータ格納場所間の競合の処理方法（Document Information Dictionaryの値とXMPの値が異なる場合など）、および予期されるメタデータが欠落または不正な形式である場合のフォールバック戦略の実装について、十分な情報に基づいた決定を下すことができます。

仕組み

Metadata extractionは通常、PDFファイル構造内の複数のステップとデータソースを伴います。プロセスは、PDFファイルのクロスリファレンステーブルを解析してdocument catalogを見つけることから始まります。document catalogは ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で詳述されているように、文書のオブジェクト階層のルートとして機能します。

主なメタデータソースには以下が含まれます：

Document Information Dictionary：このレガシーメタデータ構造は、文書トレーラーのInfoエントリを通じてアクセスされ、基本的な文書プロパティの単純なキーと値のペアを含みます。抽出には、これらのディクショナリエントリを読み取り、PDF文字列エンコーディング規則（PDFDocEncodingまたはUnicode）に従ってその値をデコードすることが含まれます。

XMP Metadata Stream：最新のPDFには、document catalogのMetadataエントリから参照されるXMPメタデータストリームが含まれています。このXMLベースの構造は、様々な名前空間からRDF（Resource Description Framework）プロパティを抽出するためにXML解析を必要とします。XMPメタデータはより拡張性が高く、基本的なDocument Information Dictionaryフィールドを超えた豊富で構造化された情報を含むことができます。

Structural Metadata：Tagged PDFの場合、コンテンツの論理的な構成を記述する構造ツリー内に追加のメタデータが存在します。 ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で説明されているように、このメタデータの抽出には、StructTreeRootをトラバースし、ロールマッピング、代替説明、言語仕様を含む構造要素からプロパティを読み取ることが含まれます。

開発者は通常、これらのメタデータソースにアクセスするAPIを提供するPDFライブラリを使用し、低レベルの解析、解凍（メタデータストリームは圧縮されている場合があります）、およびデコードを自動的に処理します。ベストプラクティスには、レガシーとXMPの両方のメタデータソースを確認すること、競合が発生した場合はXMPを優先すること（より最新の標準であるため）、および不正な形式または欠落しているメタデータに対するエラーハンドリングの実装が含まれます。

出典

(N.A.) (2020): (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023): PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014): (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html

概要

定義

重要性

仕組み

関連用語

出典