Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

PDFMarkedContentExtractor

PDFMarkedContentExtractorは、Apache PDFBoxライブラリに含まれる特殊なクラスで、PDF文書からマークされたコンテンツ(marked content)を抽出・処理する機能を開発者に提供します。

キーワード: pdfmarkedcontentextractor, PDFMarkedContentExtractor

概要

PDFMarkedContentExtractorは、Apache PDFBoxライブラリに含まれる特殊なクラスで、PDF文書からマークされたコンテンツ(marked content)を抽出・処理する機能を開発者に提供します。PDFにおけるマークされたコンテンツは、文書ストリーム内のコンテンツ要素を識別しタグ付けする構造化された方法として機能し、アクセシビリティ機能や論理的な文書構造にとって不可欠です ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。このクラスは、マークされたコンテンツのシーケンスへのプログラム的なアクセスを提供し、開発者が単純なテキスト抽出ではなく構造タグに基づいて情報を読み取り、分析し、抽出できるようにします。

定義

PDFMarkedContentExtractorは、Apache PDFBoxのPDModelパッケージに含まれる高レベルAPIコンポーネントで、PDFページのコンテンツストリームからマークされたコンテンツを抽出する処理を専門的に行います。PDFから単に生のテキストを取得する基本的なテキスト抽出ツールとは異なり、このクラスはPDFコンテンツストリーム内のBMC(Begin Marked Content)およびBDC(Begin Marked Content with Properties)オペレーターによって定義されるマークされたコンテンツ構造を理解し、それに従います ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。このエクストラクターは、マークされたコンテンツタグで囲まれたコンテンツを識別し、関連するプロパティを取得し、論理構造の階層を認識することができます。これは、連続的なテキスト抽出に焦点を当てたPDFTextStripperや、視覚的なレンダリングを処理するPDFRendererとは異なります。PDFMarkedContentExtractorは、PDFをアクセシブルで機械可読にする構造メタデータ層を特に対象としています。

重要性

アクセシブルなPDFを扱う開発者や文書処理ワークフローを実装する開発者にとって、PDFMarkedContentExtractorはTagged PDF文書を操作するための重要な機能を提供します。Tagged PDFはアクセシビリティ準拠にとって不可欠であり、スクリーンリーダーなどの支援技術が文書構造や読み順を適切に解釈できるようにします ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。このクラスにより、開発者はPDF構造を検証したり、論理的な要素タイプ(見出し、段落、リストなど)別にコンテンツを抽出したり、構造を保持したままコンテンツを異なる形式間で移行したり、文書構成を分析したりするアプリケーションを構築できます。PDFMarkedContentExtractorのようなツールがなければ、開発者は低レベルのPDFオペレーターを手動で解析する必要があり、エラーが発生しやすく、PDF仕様の内部に関する深い知識が必要となります。

仕組み

PDFMarkedContentExtractorは、PDFコンテンツストリームを走査し、BMC(Begin Marked Content)、BDC(Begin Marked Content with properties dictionary)、EMC(End Marked Content)などのオペレーターによって定義されるマークされたコンテンツのシーケンスを識別することで動作します ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。ページを処理する際、このエクストラクターは入れ子になったマークされたコンテンツセクションのスタックベースモデルを維持し、構造要素間の階層的な関係を追跡できるようにします。開発者は通常、このクラスを拡張し、マークされたコンテンツが開始または終了したときに呼び出されるコールバックメソッドをオーバーライドすることで、異なるタグタイプに対するカスタム処理ロジックを実装します。このクラスは、タグ名(段落を示す「P」や見出しを示す「H1」など)と、マークされたコンテンツに関する追加のメタデータを提供する関連プロパティディクショナリにアクセスできます。このイベント駆動型のアプローチにより、開発者は文書の論理構造ツリーを認識しながら、アプリケーションに関連するコンテンツタイプのみを選択的に処理できます。

関連用語

  • Tagged PDF – 論理的な文書要素と読み順を定義するためにマークされたコンテンツを使用した構造マークアップを含むPDF文書
  • PDFTextStripper – 構造認識なしにPDF文書からプレーンテキストコンテンツを抽出するApache PDFBoxクラス
  • Content Stream – PDFページの視覚的な外観と構造を定義するPDFオペレーターとオペランドのシーケンス
  • Structure Tree – Tagged PDF内の論理的な文書構造の階層的表現で、マークされたコンテンツ要素を整理する
  • Marked Content – 構造的な目的で文書要素を識別・分類するマークされたコンテンツオペレーターで囲まれたPDFコンテンツストリームのシーケンス

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html