Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

PDF text edge cases

PDF text edge casesとは、PDFの複雑なテキスト表現モデルに起因して、テキスト抽出、レンダリング、または操作が予期しない動作をする困難なシナリオを指します。

カテゴリ: General PDF Concepts
キーワード: pdf text edge cases, PDF text edge cases

概要

PDF text edge casesとは、PDFの複雑なテキスト表現モデルに起因して、テキスト抽出、レンダリング、または操作が予期しない動作をする困難なシナリオを指します。シンプルなテキスト形式とは異なり、PDFはテキストを連続した文字ストリームではなく、位置情報を持つグリフとして保存するため、合字、双方向テキスト、縦書き、文字エンコーディングの問題などで困難が生じます。これらのedge casesを理解することは、 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準に準拠したPDFテキスト抽出機能やアクセシビリティ機能を実装する際に不可欠です。

定義

PDF text edge casesは、PDFフォーマットのテキスト表現に関するアーキテクチャ上の決定から生じる、さまざまな技術的課題を包含します。PDF仕様 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) では、テキストをセマンティックなテキストコンテンツとしてではなく、位置情報を持つグリフ表示操作のシリーズとして定義しています。これにより、いくつかの領域でedge casesが発生します。

文字エンコーディングの曖昧性は、PDFが適切なToUnicodeマッピングなしにカスタムまたは非標準のフォントエンコーディングを使用する場合に発生し、グリフがどの文字を表すのかを判断できなくなります。合字と複合文字は、単一のグリフが複数のUnicode文字(「fi」や「ffl」など)を表す可能性があるため、抽出時に複雑なマッピングロジックが必要となり、課題となります。双方向および混在方向テキストは、右から左へのスクリプト(アラビア語、ヘブライ語)と左から右へのテキストを組み合わせるもので、視覚的な順序と論理的な読み順が異なります。縦書きシステム(CJK言語で使用)は、座標系の複雑さをもたらします。単語間隔の検出は、PDFが単語の境界を明示的にマークしないため問題となります。抽出ツールはグリフの位置から間隔を推測する必要があります。Tagged PDF ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ )ActualTextの置換は、視覚的なコンテンツをセマンティックな代替テキストでオーバーライドできるため、画面に表示されるものと抽出されるべきものとの間に不一致が生じます。

これらは、HTMLやDOCXのような形式でのテキスト処理とは異なります。これらの形式では、テキストは文字列として保存され、スタイルが別途適用されるため、テキスト抽出が容易です。

重要性

PDF機能を実装する開発者にとって、text edge casesは複数の重要な機能に直接影響します。テキスト抽出の精度は、検索機能、コンテンツインデックス作成、データマイニングアプリケーションに影響します。合字やエンコーディングの問題を処理できない場合、抽出された出力で文字化けやテキストの欠落が発生する可能性があります。アクセシビリティ準拠には適切なテキスト表現が必要です。 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) は、すべてのテキストコンテンツが正しいUnicodeマッピングで論理的な読み順で抽出可能であることを義務付けており、edge caseの処理はアクセシブルなドキュメント作成において法的に重要です。コピー&ペースト機能は、適切なToUnicodeマッピングとActualTextエントリに依存します。ユーザーは、基礎となるグリフが装飾的またはシンボリックなフォントを使用している場合でも、読み取り可能なテキストをコピーできることを期待します。検索およびハイライト機能は、合字(「find」の検索が「fi」合字にマッチする必要がある)と双方向テキスト(アラビア語PDFでの検索には論理的順序と視覚的順序の理解が必要)を考慮する必要があります。レスポンシブ表示やモバイルディスプレイのためのテキストリフローには、配置されたグリフから文書構造を再構築する必要があり、edge casesによりテキストが順序通りに表示されなかったり、完全に消失したりする可能性があります。

仕組み

PDF text edge casesを理解するには、PDFが内部でテキストをどのように表現するかを知る必要があります。テキストは、テキスト表示演算子(Tj、TJ、’)を通じてレンダリングされ、Unicode値ではなく文字コードを使用してグリフを配置します。フォントのエンコーディングが文字コードからグリフへのマッピング方法を決定しますが、このマッピングはフォント固有または完全にカスタムである可能性があります。ToUnicode CMapは文字コードからUnicodeへの橋渡しを提供しますが、多くのPDFバージョンではオプションであり、実際のファイルでは欠落していたり不正確であったりすることがよくあります。

合字の場合、PDF内の単一の文字コードは、ToUnicode CMapsを通じて複数のUnicodeコードポイントにマッピングする必要がある場合があります。抽出ツールは、これらの一対多マッピングを検出し、正しく展開する必要があります。逆に、一部の書記体系では、複数の文字コードを使用して単一の表示文字を生成するため、多対一の処理が必要です。

双方向テキストでは、テキスト方向マーカーを追跡し、Unicode Bidirectional Algorithmを適用して、視覚的配置から論理的順序を再構築する必要があります。PDFには、視覚的順序(画面に表示される順序)または論理的順序(読み取られるべき順序)で文字が含まれている可能性があり、抽出はどちらのケースが適用されるかを判断する必要があります。

Tagged PDFは、論理的な読み順を示し、視覚的コンテンツをオーバーライドするActualTextエントリを含めることができる構造ツリーを提供します。これらが存在する場合、グリフ抽出よりも優先されるべきですが、構造が存在しないか不完全な場合は、ツールはグリフレベルの抽出にフォールバックする必要があります。

単語境界の検出は通常、ヒューリスティックを使用します。グリフ間の間隔を平均文字幅と比較し、明示的なスペース文字を考慮し、水平位置調整を分析します。PDFの作成者によって異なる間隔アプローチが使用されるため、堅牢な抽出には複数の検出戦略が必要です。

関連用語

  • Text extraction(テキスト抽出) – PDFファイルから文字コンテンツを取得するプロセスで、エンコーディングと位置情報のedge casesの処理が必要
  • ToUnicode CMap – PDFフォント内のマッピングテーブルで、文字コードをUnicode値に変換し、適切なテキスト抽出に不可欠
  • Tagged PDF – 読み順とセマンティックな役割を識別する構造マークアップを持つPDFファイルで、テキスト抽出の曖昧性の解決に役立つ
  • ActualText – 視覚的コンテンツの代替テキストを提供するTagged PDF属性で、数式、略語、アクセシビリティに使用される
  • Glyph positioning(グリフ配置) – PDF内の文字の座標ベースの配置で、単語境界と読み順を決定するために分析する必要がある

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html