Reconstruction
Reconstructionとは、PDFファイルに格納された低レベルのグラフィカルプリミティブから、表、段組み、読み上げ順序などの高レベルな文書構造を推測し再構築するプロセスです。
Reconstructionとは、PDFファイルに格納された低レベルのグラフィカルプリミティブから、表、段組み、読み上げ順序などの高レベルな文書構造を推測し再構築するプロセスです。PDFファイルは基本的に、固有の意味的情報を持たない位置指定されたテキスト文字列、線、図形としてコンテンツを格納します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。Reconstructionアルゴリズムは、レンダリングされたコンテンツ内の空間的関係、書式パターン、視覚的な手がかりを分析することで、元の文書構造をリバースエンジニアリングしようと試みます。
Reconstructionとは、PDFの生のコンテンツストリームを処理し、文書内に明示的にエンコードされていない可能性のある構造情報を導出する計算分析技術です。意味的関係を定義する明示的な構造ツリーを含むTagged PDF文書 ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) とは異なり、ほとんどのPDFファイルには低レベルの描画命令(テキスト配置コマンド、フォント選択、グラフィック操作)のみが含まれています。Reconstructionアルゴリズムは、これらのプリミティブの座標、間隔、配置、書式を調べることで、表の開始位置と終了位置、どのテキストフローが同じ段に属するか、論理的な読み上げ順序がどうあるべきかを推測します。
これは単純なテキスト抽出とは異なります。テキスト抽出は、コンテンツストリーム内に現れる順序でテキストを取得するだけです。Reconstructionは、コンテンツが特定の位置に配置されている理由と、要素が空間的および意味的に互いにどのように関連しているかを理解しようと試みます。また、構造がすでに存在し、推測するのではなく単に辿る必要があるTagged PDFの構造認識処理とも異なります。
PDFコンテンツ抽出を扱う開発者にとって、Reconstructionはしばしば必要となります。なぜなら、本番環境にあるPDFの大多数は明示的な構造情報を欠いているためです。表形式データの抽出、アクセシビリティのための読み上げ順序の保持、PDFを他の形式に変換するアプリケーションを構築する際、Reconstructionアルゴリズムは、PDFが格納するもの(位置指定されたグラフィックス)とアプリケーションが必要とするもの(意味的構造)の間のギャップを埋めます。
Reconstructionは、レガシー文書、スキャンされたフォーム、Tagged PDF出力を作成しないアプリケーションによって生成されたPDFを扱う際に特に重要になります。Reconstruction機能がなければ、抽出されたコンテンツはランダムな順序で表示される可能性があり、表のセルをヘッダーと関連付けることが不可能になる可能性があり、複数段のレイアウトが理解不能なテキスト列を生成する可能性があります。アクセシビリティ改修プロジェクトでは、Reconstructionはタグとして含まれるべきだった構造情報を近似的に生成するのに役立ちます ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。
ただし、開発者はReconstructionが本質的にヒューリスティックで不完全であることを理解する必要があります。視覚的な外観に基づいて推測を行うため、複雑なレイアウトや通常と異なる書式では失敗する可能性があります。Tagged PDFが利用可能な場合、明示的な構造ツリーを使用することが常にReconstructionよりも望ましい方法です。
Reconstructionアルゴリズムは通常、複数のフェーズで動作します。
空間分析: アルゴリズムは最初に、すべてのコンテンツ要素を正確な座標、寸法、書式属性とともに抽出します。テキストフラグメントは間隔に基づいて単語にグループ化され、次に垂直方向の配置に基づいて行にグループ化され、最後に近接性と書式の一貫性に基づいてブロックにグループ化されます。
パターン認識: アルゴリズムは、繰り返される段の幅、表を示唆するテキストと線のグリッド状の配置、階層関係を示す一貫したインデント、または論理的なセクションを分離する空白のギャップなどの構造パターンを識別します。
関係推論: 空間的関係と視覚的な手がかりに基づいて、アルゴリズムは要素がどのように関連しているかのモデルを構築します。どのテキストブロックが表のセルを形成するか、どのセルが同じ行に属するか、セルが列ヘッダーにどのようにマッピングされるか、どのブロックのシーケンスが意図された読み上げ順序を表すかなどです。
構造生成: 最後に、アルゴリズムは文書の構造化された表現を生成します。これはしばしばTagged PDFの構造ツリーが含むべき内容を模倣します。これには、見出しレベル、リスト構造、表のジオメトリ、読み上げ順序のシーケンスの識別が含まれる場合があります。
Reconstructionの精度は、レイアウトの規則性、視覚的な一貫性、採用されるアルゴリズムの洗練度に大きく依存します。明確なグリッド線を持つ整形式の表は、不規則な間隔を持つ枠線のない表よりも確実に再構築されます。単一段のレイアウトは、画像の周りにテキストが回り込む複雑な複数段の雑誌スタイルのレイアウトよりも処理が簡単です。
- Tagged PDF – 明示的な構造情報を含むPDF形式で、Reconstructionの必要性を排除する
- Content Stream – Reconstructionアルゴリズムが分析する、低レベルのグラフィックスおよびテキスト描画オペレーターのシーケンス
- Structure Tree – Reconstructionが生成しようとする文書構造の階層的表現
- Reading Order – コンテンツが消費されるべき論理的なシーケンスで、しばしばReconstructionの主要な目標
- Table Extraction – 位置指定されたコンテンツから表形式データを識別し抽出することに焦点を当てた特定のReconstructionタスク
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
