Metadata API
Metadata APIは、PDF文書内のメタデータの読み取り、書き込み、操作を行うためのプログラマティックインターフェースを指します。
Metadata APIは、PDF文書内のメタデータの読み取り、書き込み、操作を行うためのプログラマティックインターフェースを指します。PDFメタデータには、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているように、タイトル、著者、件名、キーワード、作成日、変更日などの文書に関する記述的情報が含まれます。現代のPDFライブラリや開発フレームワークは、標準化されたAPIメソッドを通じてこのメタデータを公開し、開発者が文書情報管理ワークフローを自動化できるようにします。アクセシブルな文書の場合、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で概説されているように、メタデータは文書識別において重要な役割を果たします。
Metadata APIは、PDF文書のメタデータプロパティへの構造化されたアクセスを提供する一連のプログラミングインターフェースです。PDF仕様では、メタデータは主に2つの形式で存在します:文書情報辞書(レガシーメタデータ)とXMPメタデータストリーム(モダンで拡張可能なメタデータ)です。Metadata APIはこれらの基盤構造を抽象化し、開発者が格納形式に関係なく一貫したメソッドを通じて文書プロパティを操作できるようにします。
PDFオブジェクトの直接操作にはPDF構文と構造の理解が必要ですが、Metadata APIはgetTitle()、setAuthor()、getCreationDate()などの高レベルメソッドを提供します。この抽象化レイヤーは、メタデータエンコーディングの複雑性、文字セット変換を処理し、PDF標準への準拠を保証します。最新のPDFライブラリのほとんどは、既存のメタデータの読み取りと、新規または変更されたメタデータの文書への書き戻しの両方をサポートするMetadata APIを実装しています。
PDFワークフローを構築する開発者にとって、Metadata APIは以下のような実用的な理由から不可欠です:
文書管理:エンタープライズシステムは、分類、検索性、取得のためにメタデータに依存しています。Metadata APIを使用することで、開発者は生成または処理中に文書に関連情報を自動的にタグ付けでき、効率的な文書管理システムを実現できます。
アクセシビリティコンプライアンス:適切なメタデータはPDF/UA準拠文書の要件です。特にタイトルエントリは、スクリーンリーダーが文書を正しく識別できるように正確に設定する必要があります。信頼性の高いMetadata APIがなければ、アクセシビリティコンプライアンスの確保は著しく困難になります。
自動化と統合:自動化された文書ワークフローでは、メタデータはルーティング、バージョン管理、監査証跡を可能にします。APIにより、開発者は手動介入なしにトラッキング情報をプログラム的に挿入し、変更タイムスタンプを更新し、文書の系統を維持できます。
クロスプラットフォーム一貫性:適切に設計されたMetadata APIは、プラットフォームやベンダーに関係なく、すべてのPDFリーダーとプロセッサに認識される標準準拠の方法でメタデータが書き込まれることを保証します。
Metadata APIは通常、PDF構造内の2つのレベルで動作します:
文書情報辞書:このレガシー構造は、PDFのトレーラー辞書にキーと値のペアとしてメタデータを格納します。一般的なキーには、/Title、/Author、/Subject、/Keywords、/Creator、/Producer、/CreationDate、/ModDateが含まれます。APIはテキスト値のエンコーディング(通常はPDFDocEncodingまたはUnicode)と日付フォーマット(PDF日付フォーマット文字列)を処理します。
XMPメタデータストリーム:最新のPDFは、文書に埋め込まれたXML構造であるExtensible Metadata Platform(XMP)パケットとしてメタデータを格納します。XMPは文書情報辞書よりも柔軟性と拡張性が高く、カスタム名前空間と複雑なプロパティタイプをサポートします。Metadata APIは、XMPフォーマットとネイティブプログラミング言語オブジェクト間でデータをマーシャリングします。
最も堅牢なPDFライブラリは、両方のメタデータストアを同期し、文書情報辞書(下位互換性のため)とXMPメタデータストリーム(最新アプリケーション用)の両方に書き込みます。APIはこの同期を自動的に処理し、両方の格納メカニズム間で一貫性を保証します。
開発者の操作は通常、文書オブジェクトのインスタンス化、そのメタデータプロパティまたはメソッドへのアクセス、そして単純なgetter/setterメソッドを通じた値の読み取りまたは変更を含みます。変更は、文書が保存される際にPDF構造にシリアル化されます。
- XMP (Extensible Metadata Platform) – 文書プロパティを格納するためにPDFおよび他のファイル形式で使用されるXMLベースのメタデータフォーマット
- 文書情報辞書(Document Information Dictionary) – 文書トレーラー内にキーと値のペアとして基本的なメタデータを格納するレガシーPDF構造
- Tagged PDF – 文書構造を定義するためにタグを使用する構造化PDFフォーマットで、アクセシビリティに不可欠であり、適切なメタデータ設定が必要
- PDF/UA – 支援技術のための特定のメタデータ要件を義務付ける、アクセシブルなPDF文書のISO標準
- 文書プロパティ(Document Properties) – PDFリーダーアプリケーションを通じてアクセスできるユーザー可視のメタデータフィールド(タイトル、著者、件名、キーワード)
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
