Structured text extraction
構造化テキスト抽出(Structured text extraction)は、PDFから論理的構造、レイアウト情報、および読み順を保持したままテキストコンテンツを抽出するプロセスです。
構造化テキスト抽出(Structured text extraction)は、PDFから論理的構造、レイアウト情報、および読み順を保持したままテキストコンテンツを抽出するプロセスです。文字の線形ストリームを出力する単純なテキスト抽出とは異なり、構造化抽出は段組み、段落、見出し、リスト、表などを含む文書の構成を維持します。Tagged PDFでは、この構造が文書の論理構造ツリー ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) に明示的にエンコードされているため、より信頼性が高くアクセシブルな抽出が可能になります。
構造化テキスト抽出は、PDFからテキストを取得する際に、その構成や配置に関するメタデータも併せて取得します。これには、フォントプロパティ、文字の配置、改行、段落の境界、段組みレイアウト、および意図された読み順に関する情報が含まれます。このプロセスは、単純な文字単位の抽出を超えて、テキスト要素が階層的および空間的にどのように関連しているかを理解します。
Tagged PDFでは、論理構造ツリーがコンテンツ要素とその関係を識別する明示的なマークアップを提供します ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。この構造により、抽出ツールは読み順と要素の境界を確実に判断できます。タグなしPDFの場合、構造化抽出はテキストの配置、フォントの変化、空間的関係のヒューリスティック分析に依存して構造を推測します。これは複雑なレイアウトでは誤った結果を生成する可能性がある、エラーが発生しやすいアプローチです。
基本的なテキスト抽出との主な違いは、構造化抽出がコンテンツストリームに現れる順序で単純にテキストを連結するのではなく、文書の意味的な構成を保持する点です。
アクセシビリティ機能、コンテンツ管理システム、または文書処理ワークフローを構築する開発者にとって、構造化テキスト抽出は文書の意味と使いやすさを維持するために不可欠です。スクリーンリーダーや支援技術は、文書を論理的にナビゲートし、正しい読み順でコンテンツを提示するために、適切な構造に依存しています ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。
構造化抽出により、いくつかの重要なユースケースが可能になります:文書構成を保持しながらPDFをHTMLなどのアクセシブルな形式に変換すること、文書階層を理解する正確な検索とインデックス作成の実装、行と列の関係を維持しながらフォームや表からデータを抽出すること、および作成者が意図した読み順を尊重しながら異なる表示サイズ向けにコンテンツを再フォーマットすることです。
構造化抽出がない場合、段組みレイアウトは各段を下に読むのではなく段を横断して水平に読まれる可能性があり、表データは意味のない文字列になり、文書階層が失われます。その結果、抽出されたコンテンツは自動化システムとエンドユーザーの両方にとって混乱を招くか使用不可能になります。
構造化テキスト抽出は、PDFに明示的なタグ付けが含まれているかどうかによって異なる動作をします。Tagged PDFでは、論理構造ツリーがコンテンツ要素の階層的なロードマップを提供します。各構造要素(段落の<P>や見出しの<H1>など)は、マークされたコンテンツ識別子(MCID)を通じてページのコンテンツストリーム内のマークされたコンテンツにマッピングされます。抽出ツールはこのツリーをトラバースして、要素タイプと階層をキャプチャしながら、論理的な読み順でテキストを取得します。
タグなしPDFの場合、抽出は物理的なレイアウトの分析に依存します。このプロセスには通常、以下が含まれます:
- 文字配置分析:間隔のしきい値に基づいて文字を単語にグループ化
- 行検出:垂直位置とベースライン配置を使用して水平テキスト行を識別
- ブロック形成:間隔、インデント、配置に基づいて行を段落またはテキストブロックにグループ化
- 段検出:水平配置パターンを分析して段組みレイアウトを認識
- 読み順の決定:ブロックを読むべき順序を確立(通常、段内で左から右、上から下)
高度な抽出ツールは、フォント属性(サイズ、太さ、スタイル)を分析して見出しや強調テキストを識別したり、箇条書き文字や番号パターンを通じてリスト構造を認識したり、テキスト要素のグリッド状の配置を識別して表を検出したりすることもあります。
構造化抽出の品質はPDF作成方法によって大きく異なり、適切に構造化されたTagged PDFが最も信頼性の高い結果を提供します。
- Tagged PDF – コンテンツ要素とその関係を識別する明示的な論理構造ツリーを持つPDF
- 論理構造ツリー(Logical structure tree) – Tagged PDFにおいて文書構成を定義する構造要素の階層的な構成
- 読み順(Reading order) – コンテンツが消費されるべき意図された順序。特にアクセシビリティにとって重要
- マークされたコンテンツ(Marked content) – タグ付けを通じて構造要素と明示的に関連付けられているPDFコンテンツストリーム内のコンテンツ
- PDF/UA – PDF文書におけるユニバーサルアクセシビリティのためのISO規格。適切なタグ付けと構造を要求
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
