Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

PDF text pipeline

PDF text pipelineは、文字データをPDFページ上にレンダリングされたテキストへと変換する一連の処理ステージです。

カテゴリ: General PDF Concepts
キーワード: pdf text pipeline, PDF text pipeline

概要

PDF text pipelineは、文字データをPDFページ上にレンダリングされたテキストへと変換する一連の処理ステージです。このpipelineには、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されている文字エンコーディング、フォント選択、グリフマッピング、配置、レンダリング操作が含まれます。PDF文書内のテキストコンテンツの抽出、操作、生成を行う必要がある開発者にとって、このpipelineの理解は不可欠です。このpipelineの複雑さが、PDFにおけるテキスト操作が単純なテキスト形式と大きく異なる理由を説明しています。

定義

PDF text pipelineは、文字コードからレンダリングされたページ上の可視グリフに至るまでの完全なワークフローを包含します。コンテンツストリームで定義された文字コードから始まり、フォントプログラムとエンコーディングテーブルを経由して正しいグリフ形状を識別し、配置とスタイリングのためのテキスト状態パラメータを適用し、最終的にページ上の特定座標にグリフをレンダリングします。文字が表示に直接マッピングされるプレーンテキスト形式とは異なり、PDFは論理的な文字表現と視覚的な表示を分離しており、高度なタイポグラフィ、多言語サポート、精密な配置を可能にしています。この分離により、PDFから読み取り可能なテキストを抽出するにはこのpipelineの多くを逆方向に処理する必要があり、PDFテキストを生成するにはこれらすべてのコンポーネントを正しく連携させる必要があります。

重要性

PDFを扱う開発者は、テキスト抽出、検索機能、コンテンツ生成などの一般的な操作を正しく実装するために、text pipelineを理解する必要があります。text pipelineの不適切な処理は、文字化けしたテキスト抽出、誤った文字順序(特に右から左への言語)、Unicodeマッピングの欠落、アクセシブルでない文書などの一般的な問題を引き起こします。 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準に準拠したアクセシビリティのためには、開発者はpipeline全体を通じて適切な文字からUnicodeへのマッピングを確保する必要があります。さらに、PDFビューアでテキストが正しく表示されない、選択できない、検索できない、コピーできない理由をデバッグする際にも、このpipelineの理解が重要です。

仕組み

PDF text pipelineは、いくつかの協調するステージを通じて動作します。まず、コンテンツストリーム内のテキスト表示演算子が文字コードと配置コマンドを指定します。これらの文字コードは、文書のエンコーディングスキーム(WinAnsiEncodingやUnicode用のIdentity-Hなど)を通じて解釈され、表示すべきグリフが識別されます。参照されるフォントリソースは、埋め込みフォントプログラムまたは標準フォントへの参照として、グリフ記述を提供します。テキスト状態パラメータは、フォントサイズ、文字間隔、単語間隔、水平スケーリング、テキスト上昇などの属性を制御します。テキスト配置行列と現在の変換行列が、グリフがページ上のどこに表示されるかを決定します。 ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) ガイドラインに従ったアクセシブルなPDFの場合、ActualTextまたはUnicodeマッピングレイヤーが追加され、論理的な読み順序と適切なテキスト抽出が保証されます。最後に、レンダリングエンジンが、塗りつぶし色やストロークパラメータなどの指定されたグラフィックス状態プロパティを使用して、計算された位置でグリフアウトラインをラスタライズします。

関連用語

  • Content stream – PDFページ上に表示される内容を記述する命令シーケンスで、テキスト表示演算子を含む
  • Font dictionary – テキストレンダリングのためのフォントプロパティ、エンコーディング、グリフ記述を定義するPDFオブジェクト
  • Text state – フォント、サイズ、間隔、配置など、テキストの外観を制御するパラメータの集合
  • ToUnicode map – PDF文字コードからUnicodeテキストの抽出を可能にするマッピングテーブル
  • Tagged PDF – テキストを含むコンテンツの論理的な読み順序と意味情報を提供する構造化PDF形式

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html