Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

PDF object search

PDFオブジェクト検索とは、PDF文書の内部構造内で特定のオブジェクトを特定し取得するプロセスを指します。

カテゴリ: General PDF Concepts
キーワード: pdf object search, PDF object search

概要

PDFオブジェクト検索とは、PDF文書の内部構造内で特定のオブジェクトを特定し取得するプロセスを指します。PDF仕様 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) において、PDFファイルはオブジェクト(ページ、フォント、画像、テキストストリームなど)の集合として構成されており、これらはオブジェクト番号システムを通じて相互参照されています。PDFプロセッサ、バリデータ、またはアクセシビリティツールを実装する開発者は、コンテンツを抽出または変更するために、これらのオブジェクトを効率的にナビゲートし検索する方法を理解する必要があります。

定義

PDFオブジェクト検索は、PDF文書の内部オブジェクト構造をトラバースしクエリするためのプログラム技術です。(可視コンテンツを検索する)テキスト検索とは異なり、オブジェクト検索は構造レベルで動作し、オブジェクト番号、タイプ、またはプロパティによって特定のPDFオブジェクトを特定します。PDFの各オブジェクトには一意の識別子(オブジェクト番号と世代番号)があり、他のオブジェクトを参照する可能性があるため、グラフのような構造を形成します。オブジェクト検索には、相互参照テーブル(または最新のPDFでは相互参照ストリーム)を解析してオブジェクトを特定し、その内容を取得して検査することが含まれます。これは、読み取り可能なテキストに焦点を当てるコンテンツ抽出や、個々の構造コンポーネントではなく文書レベルの情報をクエリするメタデータ検索とは異なります。

重要性

PDF操作、バリデーション、またはアクセシビリティ改善に取り組む開発者にとって、オブジェクト検索はいくつかの重要なタスクに不可欠です。Tagged PDFサポート ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) を実装する際、開発者は文書階層を理解し適切なアクセシビリティマークアップを確保するために、構造ツリーオブジェクトを検索する必要があります。PDFバリデータは、PDF/UA ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準への準拠を検証するために、特定のオブジェクトタイプ(フォント辞書や注釈オブジェクトなど)を特定する必要があります。オブジェクト検索により、開発者は破損したオブジェクトを識別して修復し、重複するリソースを見つけてファイルサイズを最適化し、特定の辞書オブジェクトを特定して検証する必要があるデジタル署名検証などの機能を実装できます。効率的なオブジェクト検索機能がなければ、PDFプロセシングツールはこれらの基本的な操作を確実に実行できません。

仕組み

PDFオブジェクト検索は通常、複数ステップのプロセスに従います。まず、パーサーはPDFファイルの末尾にある相互参照テーブル(またはxrefストリーム)を読み取ります。これは、オブジェクト番号をファイル内のバイトオフセットにマッピングします。特定のオブジェクトを検索する際、アプリケーションはこのテーブルでオブジェクト番号を検索し、対応するファイル位置にシークして、オブジェクトの内容を読み取ります。タイプベースの検索(例えば、すべての画像オブジェクトを検索する)の場合、アプリケーションはカタログ辞書から始まるオブジェクトグラフをトラバースし、オブジェクト参照をたどって各オブジェクトのタイプエントリを検査する必要があります。最新のPDFライブラリは、反復検索を高速化するためのインデックス戦略を実装し、オブジェクトの位置とタイプをメモリ構造にキャッシュします。Tagged PDF文書の場合、特殊な検索アルゴリズムがStructTreeRootから構造ツリーをトラバースし、K(kids)エントリを通じて親子関係をたどって特定の構造要素を特定します。PDFのインクリメンタル更新により複雑さが増します。オブジェクトの新しいバージョンが後の相互参照セクションに表示されるため、検索アルゴリズムはオブジェクトの優先順位ルールを尊重する必要があります。

関連用語

  • Cross-reference table(相互参照テーブル) – PDFオブジェクト番号をファイル内の位置にマッピングするインデックス構造
  • Structure tree(構造ツリー) – 文書の論理構造を定義するTagged PDF要素の階層組織
  • Content stream(コンテンツストリーム) – ページコンテンツを記述する命令とデータを含むPDFオブジェクト
  • Object dictionary(オブジェクト辞書) – オブジェクトのプロパティとタイプを定義するキーと値のペアの集合
  • Catalog dictionary(カタログ辞書) – PDF文書のオブジェクト階層のルートオブジェクトであり、ナビゲーションのエントリポイントとなる

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html