Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

PDF parser incremental update

PDF parser incremental updateとは、PDFファイルに追加された増分更新(incremental update)をPDFパーサーが処理し解釈するメカニズムを指します。

キーワード: pdf parser incremental update, PDF parser incremental update

概要

PDF parser incremental updateとは、PDFファイルに追加された増分更新(incremental update)をPDFパーサーが処理し解釈するメカニズムを指します。 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によれば、増分更新により、ファイル全体を書き直すことなくPDF文書に変更を加えることができ、各更新セクションはファイルの末尾に追加されます。増分更新を処理するパーサーは、相互参照情報とオブジェクトの改訂を正確に解釈し、文書の現在の状態を提示する必要があります。

定義

PDF parser incremental update機能とは、PDFパースライブラリまたはツール内に実装される機能であり、1つ以上の増分更新セクションを含むPDFファイルを正確に読み取り処理するものです。 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義される増分更新を使用してPDFファイルが変更される場合、元のファイル構造はそのまま保持され、新規または変更されたオブジェクト、新しい相互参照セクション、および新しいtrailerがファイルの末尾に追加されます。パーサーは、文書の現在の状態を再構築するために、最新のtrailerから開始し、更新チェーンを遡って、これらの更新を正しい順序で走査する必要があります。これは、線形化PDF(Webでの閲覧に最適化されたもの)や完全に書き直されたPDFファイルの解析とは異なり、パーサーは複数の相互参照セクションを処理し、新しい定義が古い定義を上書きするオブジェクトバージョンの競合を解決する必要があります。

重要性

PDF文書を扱う開発者にとって、パーサーが増分更新をどのように処理するかを理解することは、いくつかの理由から重要です。第一に、文書の変更がどのように検出され処理されるかに影響します。変更の追跡や改訂履歴の実装が必要なアプリケーションは、各増分更新レイヤーを正確に解釈する必要があります。第二に、頻繁に更新された文書を扱う場合、パフォーマンス上の考慮事項が生じます。パーサーはオブジェクトの現在のバージョンを特定するために複数の更新セクションを走査する必要がある場合があるためです。第三に、文書の整合性と検証は、適切な増分更新の解析に依存します。特に、各署名が新しい増分更新を作成し、以前の署名を無効化してはならないデジタル署名を実装する場合に重要です。最後に、PDF編集ツールや文書管理システムを構築する開発者は、データ損失やセキュリティの脆弱性を防ぐために、不正な形式または破損した増分更新をパーサーが正しく処理できるようにする必要があります。

仕組み

PDFパーサーは、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義された特定のアルゴリズムに従って増分更新を処理します。パーサーは、ファイル終端マーカーを見つけることから開始し、後方に読み取って最後のtrailer辞書を見つけます。このtrailer辞書には、最新の相互参照セクションへのポインタが含まれています。この相互参照セクションには、前の相互参照セクションを指す「Prev」エントリが含まれている場合があり、パーサーが元のファイル構造まで遡るチェーンを形成します。各オブジェクト参照について、パーサーは最新の相互参照エントリを使用し、これにより新しいオブジェクト定義が古いものを効果的に上書きします。パーサーは、従来の相互参照テーブルと圧縮された相互参照ストリームを含む、異なる相互参照フォーマットも処理する必要があります。増分更新でオブジェクトがfreeとしてマークされている場合、パーサーは、それが以前のセクションに存在していても削除されたものとして扱います。この階層的なアプローチにより、パーサーは、ファイル構造内に変更の完全な履歴を維持しながら、文書の現在の状態の一貫したビューを提示できます。

関連用語

  • Cross-reference table(相互参照テーブル) – PDFファイル内のインデックス構造で、オブジェクト番号をバイトオフセットにマッピングし、各増分変更で更新されます
  • PDF trailer – PDFファイルまたは更新セクションの末尾にある辞書で、相互参照情報への重要なメタデータとポインタを提供します
  • Object stream(オブジェクトストリーム) – 複数のPDFオブジェクトを含むことができる圧縮されたストリームで、ファイルサイズを削減するために増分更新でよく使用されます
  • Linearized PDF(線形化PDF) – ネットワーク経由のバイトサービングに最適化された特別に編成されたPDFファイルで、増分更新とは異なる構造を使用します
  • Document revision(文書改訂) – 基本ファイルと特定の時点までのすべての増分更新によって表されるPDF文書状態のスナップショット

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html