PageExtractor
PageExtractorは、Apache PDFBoxライブラリのユーティリティクラスであり、開発者がPDF文書から特定のページを抽出し、選択されたページのみを含む新しいPDFファイルを作成できるようにします。
PageExtractorは、Apache PDFBoxライブラリのユーティリティクラスであり、開発者がPDF文書から特定のページを抽出し、選択されたページのみを含む新しいPDFファイルを作成できるようにします。この機能は、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているPDF文書を扱う際に不可欠であり、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で概説されているアクセシビリティ機能をサポートするタグ付きコンテンツ構造を含む、ページコンテンツの整合性を維持しながら文書構造をプログラムで操作することを可能にします。
PageExtractorは、Apache PDFBoxが提供するJavaクラスであり、ソースPDF文書から1つ以上のページを抽出することを容易にします。単純なページ削除やコピー操作とは異なり、PageExtractorは、指定されたページ範囲のみを含む新しいPDDocumentオブジェクトを作成し、それらのページに関連付けられた元の文書構造、注釈、メタデータを保持します。このクラスは文書レベルで動作し、コンテンツストリーム、リソース、共有オブジェクトへの参照を含むPDFページの論理構造を維持します。これは、完全なページコンテキストを保持せずにページコンテンツのみをコピーする可能性のある低レベルのページ操作ツールや、特定のページ選択ではなく事前に決定されたルールに基づいて文書を分割する文書分割ユーティリティとは異なります。
PDF処理ワークフローを扱う開発者にとって、PageExtractorはPDF文書をプログラムでサブセット化するための信頼性が高く分かりやすい方法を提供します。この機能は、カスタマイズされた文書の生成、ページプレビューの作成、文書ルーティングシステムの実装、または大きな文書から関連するセクションを抽出する必要があるアプリケーションにとって重要です。このクラスは、ページリソース、注釈、フォームフィールドの適切な処理を含む、複雑なPDF内部構造を自動的に処理します。これらを手動で管理するとエラーが発生しやすくなります。で説明されているタグ付きコンテンツ構造を含むアクセシブルなPDFを扱う場合、PageExtractorがこれらの要素をどのように処理するかを理解することは、文書のアクセシビリティコンプライアンスを維持するために重要です。
PageExtractorは、PDDocumentオブジェクトとページ範囲の指定(個別のページ番号または開始/終了インデックス)を受け取ることで動作します。extract()メソッドが呼び出されると、新しいPDDocumentインスタンスを作成し、フォント、画像、その他の埋め込みオブジェクトなどの関連リソースを含む、ソース文書から指定されたページをコピーします。このクラスは、PDFの内部オブジェクト参照を管理し、抽出されたページが必要なリソースへの適切なリンクを維持しながら、共有オブジェクトの不要な重複を避けることを保証します。抽出プロセスは、サイズ、回転、注釈などのページレベルの属性を保持しますが、開発者は、ブックマークや ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で定義されている構造要素などの文書レベルの機能は、抽出後に適切な参照を維持するために追加の処理が必要になる場合があることに注意する必要があります。結果として得られる文書は、独立したPDFファイルとして保存するか、他のPDFBox APIを使用してさらに処理することができます。
- PDDocument – メモリ内のPDF文書を表すApache PDFBoxのコアクラス
- Splitter – ページ数に基づいてPDF文書を複数の個別ファイルに分割するPDFBoxユーティリティクラス
- PDPage – コンテンツと属性を持つPDF文書内の個別ページを表す
- PDPageTree – PDF内の階層構造で、文書内のすべてのページを整理および管理する
- Content Stream – PDFページ上にコンテンツをレンダリングする命令と操作を含むデータ構造
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
