PDDocumentInformation
`PDDocumentInformation`は、Apache PDFBox PDModel APIの高レベルクラスで、PDFドキュメントのメタデータ辞書へのアクセスを提供します。
PDDocumentInformationは、Apache PDFBox PDModel APIの高レベルクラスで、PDFドキュメントのメタデータ辞書へのアクセスを提供します。このクラスを使用することで、開発者はPDFドキュメントに関する記述的情報(タイトル、著者、件名、キーワード、作成日、更新日など)を読み取ったり変更したりできます。
(
Citation: N.A., 2020
(N.A.).
(2020).
Document management — Portable document format — Part 2: PDF 2.0
.
International Organization for Standardization
Retrieved from
https://www.iso.org/standard/75839.html
)
は仕様レベルでドキュメント情報辞書の構造を定義していますが、PDDocumentInformationはこれらのメタデータプロパティをプログラム的に扱うための便利なJavaインターフェースを提供します。
PDDocumentInformationは、PDFドキュメント情報辞書をカプセル化するラッパークラスです。この辞書には、ドキュメントの実際のコンテンツではなく、ドキュメントを説明するメタデータが含まれています。ページ、注釈、フォームフィールドを操作するコンテンツ中心のクラスとは異なり、PDDocumentInformationは
(
Citation: N.A., 2020
(N.A.).
(2020).
Document management — Portable document format — Part 2: PDF 2.0
.
International Organization for Standardization
Retrieved from
https://www.iso.org/standard/75839.html
)
で定義されている記述的なメタデータプロパティを専門的に扱います。
このクラスは、以下の標準メタデータフィールドに対するgetterメソッドとsetterメソッドを提供します:
- Title(タイトル) – ドキュメントのタイトル
- Author(著者) – ドキュメントの作成者
- Subject(件名) – ドキュメントの主題の説明
- Keywords(キーワード) – ドキュメントに関連付けられた検索可能なキーワード
- Creator(作成アプリケーション) – 元のドキュメントを作成したアプリケーション
- Producer(変換アプリケーション) – ドキュメントをPDFに変換したアプリケーション
- CreationDate(作成日) – ドキュメントが作成された日時
- ModificationDate(更新日) – ドキュメントが最後に変更された日時
これらのメタデータは、XMP(Extensible Metadata Platform)メタデータとは異なります。XMPはより構造化された拡張可能なメタデータフレームワークを提供しますが、PDDocumentInformationは従来のドキュメント情報辞書を扱います。この辞書はXMPより前から存在しますが、現在でも広くサポートされています。
PDF処理アプリケーションを構築する開発者にとって、PDDocumentInformationはいくつかの実用的な理由から不可欠です:
ドキュメント管理:PDFファイルを整理、検索、カタログ化するアプリケーションは、メタデータに依存してユーザーに意味のある情報を提供します。著者、タイトル、キーワードを抽出することで、より良いドキュメントの整理と検索が可能になります。
コンプライアンスとアクセシビリティ: ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などで概説されているPDF標準やアクセシビリティ要件では、適切に入力されたメタデータフィールドが、支援技術やドキュメント管理システムがドキュメントの目的とコンテンツを理解するのに役立ちます。
監査証跡:作成日と更新日は、バージョン管理、コンプライアンス、ドキュメントライフサイクル管理のための重要な追跡情報を提供します。
PDF生成:プログラムでPDFを作成する際、PDDocumentInformationを通じて適切なメタデータを設定することで、生成されたドキュメントに組織的または規制的要件を満たす専門的で完全な情報が含まれることが保証されます。
Apache PDFBoxでPDDocumentInformationを使用するには、開発者はまずPDDocumentオブジェクトからインスタンスを取得し、提供されたgetterメソッドとsetterメソッドを使用してメタデータにアクセスまたは変更します:
// メタデータの読み込みと読み取り
PDDocument document = PDDocument.load(new File("document.pdf"));
PDDocumentInformation info = document.getDocumentInformation();
String title = info.getTitle();
String author = info.getAuthor();
Calendar creationDate = info.getCreationDate();
メタデータを変更する場合、開発者は情報辞書を作成または更新し、ドキュメントを保存します:
// メタデータの設定
PDDocumentInformation info = new PDDocumentInformation();
info.setTitle("技術仕様書");
info.setAuthor("山田太郎");
info.setSubject("API ドキュメント");
info.setKeywords("API, PDF, ドキュメント");
info.setCreator("ContentGenerator v1.0");
document.setDocumentInformation(info);
document.save("output.pdf");
document.close();
このクラスは、
(
Citation: N.A., 2020
(N.A.).
(2020).
Document management — Portable document format — Part 2: PDF 2.0
.
International Organization for Standardization
Retrieved from
https://www.iso.org/standard/75839.html
)
の仕様に従って、JavaオブジェクトをPDF辞書エントリにシリアライズする処理を内部的に管理します。日付フィールドはJavaではCalendarオブジェクトを使用しますが、PDFの特定の日付形式で保存されます。文字列フィールドは、適切なPDF文字列エンコーディング規則を使用して自動的にエンコードされます。
重要な点として、PDDocumentInformationはドキュメントの構造的コンテンツとは独立して動作します。メタデータの変更は、視覚的な外観、で説明されているアクセシビリティ構造、またはPDFのインタラクティブ要素に影響を与えません。
- PDDocument – Apache PDFBoxでPDFドキュメントを表すメインクラスで、
PDDocumentInformationオブジェクトを含みます - XMP Metadata – より現代的なXMLベースのメタデータフレームワークで、ドキュメント情報辞書と共存できます
- Document Catalog – PDFドキュメント構造のルートオブジェクトで、ドキュメントレベルの情報への参照を含みます
- PDModel API –
PDDocumentInformationやその他の便利なクラスを含む、Apache PDFBoxの高レベルAPIレイヤー - Metadata Dictionary –
PDDocumentInformationがラップして開発者向けに簡素化する低レベルのPDF構造
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
