PDF text workflow
PDF text workflowとは、PDFドキュメント内でテキストコンテンツを作成、抽出、操作、およびレンダリングする一連のプロセス全体を指します。
PDF text workflowとは、PDFドキュメント内でテキストコンテンツを作成、抽出、操作、およびレンダリングする一連のプロセス全体を指します。このワークフローは、PDFファイルのコンテンツストリーム内でテキストがどのようにエンコードおよび配置されるかから、アクセシビリティと検索性のためにどのように構造化されるかまで、すべてを包含します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。PDF text workflowを理解することは、プログラムによるPDF生成、テキストデータの抽出、またはアクセシビリティ標準への準拠を確保する必要がある開発者にとって不可欠です ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。
PDF text workflowは、PDF形式内でテキストを処理するための完全な技術パイプラインです。文字が順次保存される単純なテキストファイルとは異なり、PDF text workflowには複数のレイヤーが含まれます。ページ上にグリフを配置する低レベルのテキストオペレータ、文字の外観を定義するフォントリソース、コードをグリフにマッピングする文字エンコーディング、そしてオプションでTagged PDFによって提供される論理構造などです ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。
このワークフローは、HTMLやDOCXなどの形式におけるテキスト処理といくつかの重要な点で異なります。PDFは文書構造よりも視覚的な表現を優先するため、テキストは論理的な読み順ではなく、ページ上に視覚的に表示される順序で保存されることが多くあります。このワークフローでは、フォントの埋め込み、絶対座標を使用したグリフの配置、視覚的表現と意味的な意味の分離を考慮する必要があります。アクセシビリティが必要な場合、ワークフローは、視覚的レイアウトに本来備わっていない論理的な読み順と意味情報を提供するタグ構造を含むように拡張されます。
PDFを扱う開発者にとって、text workflowを理解することは、いくつかの実用的な理由から非常に重要です。
テキスト抽出の精度: PDFテキストがどのように保存および配置されているかを理解していなければ、抽出の試みは文字化けした出力、不正確な文字順序、またはコンテンツの欠落を引き起こす可能性があります。PDFは本来、単語や文を保存するのではなく、配置されたグリフのみを保存するため、開発者は論理的なテキストフローを再構築する必要があります。
プログラムによるPDF生成: 適切にレンダリングされたテキストを含むPDFを作成するには、フォント処理、テキストオペレータ、エンコーディングスキーム、および配置メカニズムの知識が必要です。不適切な実装は、文字の欠落、レンダリングの不良、または検証に失敗するファイルを引き起こす可能性があります。
アクセシビリティへの準拠: PDF/UA標準を満たすには、タグ付けによる視覚的レンダリングと意味構造の両方を含む適切なtext workflowの実装が必要です ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。これは、法的コンプライアンスとインクルーシブデザインにとってますます重要になっています。
パフォーマンスの最適化: text workflowを理解することで、開発者は効率的なフォントサブセット化を通じてファイルサイズを最適化し、特定のユースケースに適したテキストレンダリング戦略を選択できます。
PDF text workflowは、相互に接続されたいくつかのコンポーネントを通じて動作します。
コンテンツストリームとテキストオブジェクト: PDF内のテキストは、コンテンツストリーム内のテキスト表示オペレータを使用してレンダリングされます。これらのオペレータ(Tj、TJ、'、"など)は、描画される個々の文字または文字列を指定します。テキストは、テキストオブジェクトを定義するBT(Begin Text)およびET(End Text)オペレータ内に含まれる必要があります
(
Citation: N.A., 2020
(N.A.).
(2020).
Document management — Portable document format — Part 2: PDF 2.0
.
International Organization for Standardization
Retrieved from
https://www.iso.org/standard/75839.html
)
。
テキストの配置: PDFは、テキストマトリックスとテキスト配置オペレータ(Td、TD、Tm、T*)を使用して、各文字がページ上のどこに表示されるかを制御します。現在のポイントは追跡され、各グリフがレンダリングされるにつれて更新されます。座標はユーザー空間単位(通常1/72インチ)で表されます。
フォントリソースとエンコーディング: 各テキストオブジェクトは、グリフの外観を定義するフォントリソースを参照します。フォントのエンコーディングは、PDF内のバイトコードが特定のグリフにどのようにマッピングされるかを決定します。フォントプログラムは埋め込まれる場合(一貫したレンダリングを保証)と、名前で参照される場合(置換のリスクがある)があります。
Unicodeマッピング: テキスト抽出と検索が適切に機能するためには、PDFには文字コードをUnicode値にマッピングするToUnicode CMapを含める必要があります。このマッピングがないと、抽出ツールは視覚的なグリフを意味のあるテキストに確実に変換できません。
論理構造(Tagged PDF): アクセシブルなPDFでは、視覚的なtext workflowは、テキスト要素の論理的な読み順と意味的役割を定義する構造ツリーによって補完されます ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。この構造は視覚的な表示順序とは独立しており、スクリーンリーダーやその他の支援技術にとって不可欠です。
テキスト抽出プロセス: テキストを抽出する際、アプリケーションはコンテンツストリームを解析し、テキストオペレータを解釈し、テキストマトリックスからの変換を適用し、フォントエンコーディングとToUnicodeマッピングを参照し、オプションで構造情報を使用して論理的な読み順を決定する必要があります。
- Tagged PDF – コンテンツ要素の論理的な読み順と意味的意味を定義する構造情報が埋め込まれたPDF
- Content stream – テキストオペレータを含むページコンテンツをレンダリングするための命令を含むPDFの部分
- Font embedding – 異なるシステム間で一貫したテキストレンダリングを保証するために、PDFファイル内にフォントプログラムを含めるプロセス
- ToUnicode CMap – 適切なテキスト抽出のために、PDFで使用される文字コードをUnicode値に変換するマッピングテーブル
- PDF/UA – タグ付けを含む適切なtext workflowの実装を要求するアクセシブルなPDFドキュメントのISO標準
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
