Conversion extraction

キーワード: conversion extraction, Conversion extraction

概要

Conversion extractionは、フォーマット変換操作中にPDF文書からコンテンツと構造情報を抽出するPDF処理技術です。このプロセスは、PDFをHTML、XML、またはアクセシブルなフォーマットなどの他の形式に変換する際に不可欠です。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているように、テキスト、画像、メタデータ、および文書構造を体系的に取得する必要があるためです。Conversion extractionは、単純なコンテンツ抽出とは異なり、ターゲットフォーマットへの正確な変換を可能にするために、論理構造と要素間の関係を保持することに重点を置いています。

定義

Conversion extractionは、文書を別のフォーマットに変換する目的で、PDF文書からコンテンツ要素を識別、取得、解釈する体系的なプロセスです。単に生のテキスト文字列を取り出すだけの基本的なテキスト抽出とは異なり、conversion extractionは文書の内部構造を分析します。これには、コンテンツストリーム、タグ付き構造ツリー（存在する場合）、フォント、グラフィックス、メタデータが含まれ、変換に適した包括的な表現を作成します。

Tagged PDFを扱う場合、conversion extractionは ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で定義された構造階層を活用して、見出し、段落、リスト、表などの要素間の意味的関係を理解します。 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) に準拠したアクセシブルなPDFの場合、conversion extractionは、出力フォーマットで文書のアクセシビリティを維持するために、アクセシビリティ情報、代替テキスト、読み上げ順序も処理する必要があります。

Conversion extractionは、視覚的な出力を作成するレンダリングや、特定の値を取得する単純なデータ抽出とは異なります。代わりに、コンテンツと構造の両方をキャプチャする中間表現を作成し、文書のセマンティクスを保持しながらインテリジェントな変換を可能にします。

重要性

PDF処理ソリューションを構築する開発者にとって、conversion extractionは信頼性の高い文書変換ワークフローを作成する上で不可欠です。PDFをWeb表示用のHTMLに、電子書籍リーダー用のEPUBに、または支援技術用のアクセシブルなフォーマットに変換する際、抽出プロセスの品質が出力の使いやすさと正確性に直接影響します。

Conversion extractionを理解することで、開発者はテキストのリフロー、読み上げ順序の維持、表構造の保持、PDF要素からターゲットフォーマット要素への正確なマッピングなど、一般的な課題に対処できるようになります。不適切なconversion extractionは、テキストの混乱、書式の損失、アクセシビリティ機能の破損、コンテンツの欠落などを引き起こす可能性があり、これらはユーザーエクスペリエンスを大幅に低下させる問題です。

文書アーカイブを管理する組織やドキュメントアクセシビリティイニシアチブを実施する組織にとって、堅牢なconversion extraction機能により、アクセシビリティ基準への準拠を維持しながら、PDFコンテンツを最新のレスポンシブフォーマットに効率的に移行できます。

仕組み

Conversion extractionは通常、複数のフェーズで動作します：

構造分析：抽出エンジンは、PDFの内部構造を解析し、文書カタログ、ページツリー、コンテンツストリームを識別します。で説明されているTagged PDFの場合、文書要素の論理階層を理解するために構造ツリーの分析も含まれます。
コンテンツ取得：プロセスは、文字コード、位置情報、フォント参照を含むテキストオブジェクトを抽出します。また、グラフィックス、画像、注釈、フォームフィールドをそれらのプロパティと座標と共に取得します。
レイアウト解釈：抽出エンジンは、コンテンツ要素間の空間的関係を分析して、読み上げ順序を決定し、カラムを識別し、表を検出し、論理的なグループを認識します。これは、視覚的なレイアウトから構造を推測する必要があるタグなしPDFで特に重要です。
セマンティックマッピング：抽出された要素は分類され、ターゲットフォーマットの意味的に等価なものにマッピングされます。例えば、特定のスタイルを持つテキストは見出しとして識別され、グループ化されたオブジェクトはリストとして認識され、空間的配置は表として解釈されることがあります。
関係の保持：リンク、相互参照、ブックマーク、その他のインタラクティブ要素が識別され、出力フォーマットの同等の機能への変換に備えて準備されます。

Conversion extractionの複雑さは、PDFの特性によって大きく異なります。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 標準に従った、適切に構造化されたTagged PDFは明示的な構造情報を提供するため、抽出がより信頼性の高いものになります。タグなしまたは構造が不十分なPDFは、ヒューリスティック分析が必要であり、精度の低い結果を生成する可能性があります。

出典

(N.A.) (2020): (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023): PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014): (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html

概要

定義

重要性

仕組み

関連用語

出典