Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

Content mode

Content modeは、PDFページの構造化されたコンテンツを抽出して出力する、PDF処理における特殊な変換モードです。

カテゴリ: General PDF Concepts
キーワード: content mode, Content mode

概要

Content modeは、PDFページの構造化されたコンテンツを抽出して出力する、PDF処理における特殊な変換モードです。最終的な視覚的フォーマットにレンダリングすることなく処理を行います。ラスター画像や表示可能な出力を生成する標準的なレンダリングモードとは異なり、content modeは ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているPDFコンテンツストリームから、テキスト、グラフィックス、レイアウト情報を含む基礎となるページ構造を保持します。このモードは、カスタムレンダリングパイプラインを構築する場合や、さらなる処理のためにページ要素へのプログラマティックなアクセスが必要な場合に特に有用です。

定義

Content modeは、PDFページのコンテンツストリームから生のコンテンツ要素を抽出するPDF処理アプローチであり、それらの要素をピクセルや表示サーフェスにレンダリングすることはありません。PDFプロセッサーがcontent modeで動作する場合、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で規定されているページコンテンツのオペレーターとオペランドを解析しますが、最終的なレンダリング段階の手前で処理を停止します。代わりに、テキストオブジェクト、パス構造、画像、およびそれらに関連する位置、フォント、色などのプロパティを表す構造化データを出力します。

これは標準的なレンダリングモードといくつかの重要な点で異なります。レンダリングモードは通常、完全なグラフィックスステートマシンを実行し、ラスター画像、ベクターグラフィックス、画面表示などの最終的な視覚的出力を生成します。対照的に、content modeはページコンテンツの中間表現へのアクセスを提供し、開発者が独自のレンダリングロジックを実装したり、コンテンツ分析を実行したり、代替出力フォーマットへのコンテンツ変換を行うことを可能にします。また、グラフィカル要素や正確なレイアウト情報を破棄してテキストコンテンツのみの抽出に焦点を当てるテキスト抽出モードとも異なります。

重要性

Content modeは、PDFコンテンツの解釈とレンダリング方法に対する詳細な制御を必要とする高度なPDF処理ワークフローを構築する開発者にとって不可欠です。標準的なレンダリングパイプラインは、PDFをカスタムマークアップフォーマットに変換する、 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で概説されている深いコンテンツ分析を必要とするアクセシビリティ機能を実装する、ドメイン固有のレンダリングエンジンを構築するといった特殊なユースケースには適さない場合があります。

ページコンテンツを構造化された形式でアクセスすることで、開発者は特定のコンテンツタイプを処理するためのカスタムロジックを実装したり、特定の出力デバイス向けにレンダリングを最適化したり、最終レンダリング前にコンテンツ操作を実行できます。このアプローチは、PDFコンテンツを再利用、分析、または他のシステムと統合する必要があるエンタープライズアプリケーションで特に有用です。Content modeはまた、 ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で説明されているTagged PDF構造のより良い処理を可能にし、開発者がコンテンツ変換中にセマンティックな関係を保持できるようにします。

仕組み

Content modeは、ページ上にレンダリングされるグラフィカル要素を記述するオペレーターとそのオペランドのシーケンスで構成されるPDFページコンテンツストリームを解析することで動作します。 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で規定されているように、これらのオペレーターはグラフィックスステートを制御し、パスを構築し、テキストを配置し、ページ上にオブジェクトを描画します。

Content modeで処理する際、PDFエンジンはコンテンツストリームをトラバースし、以下のような重要な情報を抽出します:

  • テキスト要素:文字コード、フォント参照、位置決め行列、テキスト状態パラメーター
  • グラフィックスオブジェクト:パス定義、ストロークとフィル操作、色仕様、変換行列
  • 画像:画像データ参照、寸法、配置情報
  • グラフィックスステート:現在の変換行列、クリッピングパス、線のスタイル、色空間

Content modeからの出力は通常、これらのコンテンツ要素を表す構造化データオブジェクトまたはイベントの形式をとり、さらなる処理に適したフォーマットとなります。開発者はこの構造化された出力をカスタムレンダリングパイプラインで使用し、独自の変換ロジック、フィルタリングルール、またはレンダリングアルゴリズムを適用できます。このアプローチは、カスタム処理要件に対する最大限の柔軟性を提供しながら、元のPDF構造の忠実性を維持します。

関連用語

  • Content stream(コンテンツストリーム)– ページの外観を定義するPDFオペレーターとオペランドのシーケンス
  • Graphics state(グラフィックスステート)– コンテンツオペレーターのレンダリング方法を制御するパラメーターの集合
  • Page description(ページ記述)– PDFページ上のすべての視覚的要素の完全な仕様
  • Rendering pipeline(レンダリングパイプライン)– PDFコンテンツを視覚的出力に変換する処理チェーン
  • Tagged PDF – コンテンツ要素に関するセマンティック情報を含む構造化されたPDFフォーマット

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html