PDF splitting
PDF文書を個別ページまたはページ範囲に分割する操作
PDF分割(スプリッティング)は、単一のPDFドキュメントを複数の小規模なPDFファイルに分離する操作です。全ページを個別ファイルに分割する場合もあれば、指定範囲のページをグループ化して抽出する場合もあります。JPedalのPdfManipulatorクラスを使用することで、プログラムから効率的に大規模ドキュメントを分割でき、ドキュメント管理、配布、アーカイブワークフローの自動化に活用されます。
PDF分割とは、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) に準拠する1つのPDFドキュメントから、指定されたページ、ページ範囲、またはしおり境界に基づいて、1つ以上の新しい独立したPDFドキュメントを生成するプロセスです。元のドキュメント内のカタログ、ページツリー、リソース定義、コンテンツストリームなどの必要な構造要素を、新しいドキュメントにコピーまたは参照して、有効なPDF構造を保証します。
PDF分割はドキュメント管理とワークフロー自動化において必須の機能です。大規模な年次報告書や契約書集を部門別、顧客別に分割することで、関連する情報のみを配布でき、セキュリティとプライバシー保護が強化されます。また、スキャンされた物理文書を論理的な単位に自動分割する場合、手作業による時間コストが大幅に削減されます。
PDF分割の実装ではまず、元のドキュメントのページツリー構造を走査して、対象ページのオブジェクト参照を特定します。分割ターゲット(例:ページ5-10)が指定された場合、これらのページに関連するすべてのコンテンツストリーム、フォント、画像、アノテーション、その他のリソースをクローンまたは参照として新しいドキュメントに移行します。新しいドキュメントの情報辞書、ページツリー、カタログを初期化し、必要なメタデータ(作成日、プロデューサーなど)を設定して、有効なPDFファイルを生成します。
- Page tree – PDF文書内のページ階層構造を定義するオブジェクト
- Content stream – ページの描画命令と要素を記述するオブジェクト
- Resource dictionary – ページ内で使用されるフォント、画像、グラフィックスの参照集合
- Document catalog – PDF文書のルートオブジェクトで全体構造を定義
- Annotation – テキスト注釈、コメント、リンクなどのページ要素
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
