PDF viewer extraction

カテゴリ: Conversion & Web Delivery (HTML/SVG/Viewer/Search)

キーワード: pdf viewer extraction, PDF viewer extraction

概要

PDFビューア抽出とは、ビューアアプリケーションやサービス内でPDF文書からコンテンツ、メタデータ、構造情報をプログラムによって抽出するプロセスを指します。この機能により、開発者は ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているテキスト、画像、フォント、注釈、文書構造を、表示、分析、または変換の目的で取得できます。ビューア抽出は、PDF対応アプリケーションで検索機能、アクセシビリティ機能、およびコンテンツ再利用のシナリオを実装するために不可欠です。

定義

PDFビューア抽出は、レンダリングまたは閲覧プロセス中にPDFファイルから様々なコンテンツ要素にプログラムでアクセスし、取得する開発技術です。単純なPDF解析(ファイル構造を読み取る処理)とは異なり、ビューア抽出は特にビューアコンテキスト内での表示またはさらなる処理に適した形式でコンテンツを取得することに焦点を当てています。これには、位置情報を持つテキスト、ネイティブ形式の埋め込み画像、ベクターグラフィックス、フォームフィールドデータ、および文書構造要素の抽出が含まれます。 ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で説明されているTagged PDFを扱う場合、抽出では読み順序とコンテンツ要素間の意味的関係を定義する論理構造情報も取得できます。これは、文書全体を別の形式に変換するPDF変換や、元のファイル構造を変更するPDF編集とは異なります。

重要性

PDF対応アプリケーションを構築する開発者にとって、抽出機能は最新のユーザー体験を提供するための基盤となります。Web開発者は、ブラウザベースのPDFビューアでテキスト検索、コンテンツ選択、コピー&ペースト機能を実装するために抽出を必要とします。エンタープライズアプリケーションにPDF機能を統合するJava開発者は、検索エンジン用に文書コンテンツをインデックス化したり、PDFソースデータでデータベースを構築したり、コンテンツをコンテンツ管理システムに移行したりするために抽出に依存しています。抽出は特にアクセシビリティ実装において重要です。アプリケーションはTagged PDF ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) から構造情報を抽出して、スクリーンリーダーなどの支援技術にコンテンツを適切に提示する必要があるためです。堅牢な抽出機能がなければ、PDFビューアは静的なページ画像を単にレンダリングするだけに限定され、ユーザーがデジタル文書に期待するインタラクティブ性、検索性、アクセシビリティが犠牲になります。

仕組み

PDFビューア抽出は、PDFファイル構造を解析し、PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) に従ってコンテンツストリームを解釈することで動作します。このプロセスは通常、文書のクロスリファレンステーブルを読み取ってコンテンツオブジェクトを特定し、次にテキスト、グラフィックス、画像を定義するオペレーターとオペランドを含むページコンテンツストリームを処理します。テキスト抽出では、文字の配置と読み順序を正確に決定するために、フォント、サイズ、位置、変換マトリックスを含むテキスト状態パラメーターを追跡する必要があります。Tagged PDFの場合、抽出プロセスは構造ツリーも走査して、論理的な文書階層と意味的関係を理解します。画像抽出では、画像XObjectsの識別、圧縮データストリームのデコード(FlateDecodeや、JPEGのDCTDecode、JBIG2Decodeなどのフィルターを使用する場合があります)、標準画像形式への変換が含まれます。高度な抽出実装では、非標準エンコーディングのテキスト、回転または変換されたコンテンツ、多段組レイアウト、複数のオペレーターに分割されたテキストなどの複雑なシナリオを処理します。多くのPDFライブラリは、これらの低レベル操作を抽象化した抽出APIを提供し、開発者にページごとのテキスト抽出、パターン検索、または単一の関数呼び出しですべての画像を取得するメソッドを提供します。

出典

(N.A.) (2020): (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023): PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014): (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html

概要

定義

重要性

仕組み

関連用語

出典