PDMetadata
PDMetadataは、Apache PDFBox PDModel APIのクラスで、PDFメタデータ構造への高レベルアクセスを提供します。
PDMetadataは、Apache PDFBox PDModel APIのクラスで、PDFメタデータ構造への高レベルアクセスを提供します。このクラスにより、開発者はPDF文書内に保存されたメタデータ情報を読み取り、操作することが可能になります。これは文書管理、アクセシビリティ準拠、情報検索にとって不可欠な機能です。PDF文書のメタデータには、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されている文書タイトル、著者、作成日、カスタムプロパティなどの情報が含まれます。
PDMetadataは、Apache PDFBoxのPDModelパッケージに含まれるJavaクラスで、PDF文書内のメタデータストリームを表現します。PDFの構文を直接扱う低レベルのCOSStreamオブジェクトとは異なり、PDMetadataはXMP(Extensible Metadata Platform)メタデータや文書情報辞書にアクセスするための開発者フレンドリーなインターフェースを提供します。このクラスは基礎となるメタデータストリームのラッパーとして機能し、開発者がPDFの内部構造の複雑さに対処することなく、メタデータの抽出、変更、作成を行えるようにします。PDMetadataは、文書カタログ、ページ、画像、またはメタデータストリームをサポートするその他のPDFオブジェクトに関連付けることができます。
PDF文書を扱う開発者にとって、PDMetadataはいくつかの実用的な理由から極めて重要です。第一に、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などのアクセシビリティ標準への準拠を可能にします。これらの標準では特定のメタデータ要素の存在が求められることがよくあります。第二に、著者名、キーワード、変更日などのプロパティへのプログラム的なアクセスを提供することで、文書管理ワークフローをサポートします。第三に、メタデータは企業の文書管理システムにおける検索性とコンテンツ整理に不可欠です。適切なメタデータ処理がなければ、PDF文書はアクセシビリティチェックに失敗したり、大規模なリポジトリでの管理が困難になったり、自動処理ワークフロー中に重要な来歴情報を失ったりする可能性があります。
PDMetadataは、PDFオブジェクトに関連付けられたメタデータストリームにアクセスし、操作するためのメソッドを提供することで動作します。インスタンス化される際、このクラスはメタデータを含む既存のCOSStreamをラップするか、新しいメタデータストリームを作成します。開発者は通常、getMetadata()などのメソッドを使用してPDDocumentのカタログからPDMetadataインスタンスを取得します。このクラスは、XMPメタデータ(メタデータストリーム内にXMLとして保存)と従来の文書情報辞書エントリの両方をサポートします。メタデータを変更するには、開発者は新しいPDMetadataオブジェクトを作成し、XMPデータまたはキー・バリューペアを入力して、適切なPDFオブジェクトに添付します。メタデータ構造は
(
Citation: N.A., 2020
(N.A.).
(2020).
Document management — Portable document format — Part 2: PDF 2.0
.
International Organization for Standardization
Retrieved from
https://www.iso.org/standard/75839.html
)
で規定された仕様に従っており、PDFリーダーやバリデーターとの互換性が保証されています。PDMetadataはストリームの圧縮とエンコーディングを自動的に処理し、これらの低レベルの詳細を開発者から抽象化します。
- PDDocument – Apache PDFBoxにおけるPDF文書を表すメインクラス
- PDDocumentInformation – 文書情報辞書エントリ(タイトル、著者、件名など)にアクセスするためのクラス
- XMP(Extensible Metadata Platform) – 文書にメタデータを埋め込むためのAdobeの標準
- PDDocumentCatalog – メタデータを含むことができるPDF文書のオブジェクト階層のルートオブジェクト
- COSStream – PDFストリームオブジェクトを表す低レベルのPDFBoxクラス
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
