PDF text compatibility
PDFテキスト互換性とは、PDF文書が異なるPDFリーダー、支援技術、およびテキスト抽出ツール間でテキストコンテンツを確実に表示、抽出、処理できる能力を指します。
PDFテキスト互換性とは、PDF文書が異なるPDFリーダー、支援技術、およびテキスト抽出ツール間でテキストコンテンツを確実に表示、抽出、処理できる能力を指します。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によれば、PDFにおける適切なテキスト表現には、正確なエンコーディング、フォントの埋め込み、およびUnicodeマッピングが必要であり、これによりテキストがアクセス可能で機械可読な状態を維持できます。テキスト互換性は、プラットフォーム間で一貫して動作し、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準で定義されたアクセシビリティ要件をサポートするPDFを作成するための基盤となります。
PDFテキスト互換性は、PDF文書内のテキストが正確にレンダリング、検索、コピー、および支援技術によって読み取られることを保証するいくつかの技術要件を包含します。これには、標準文字セットを使用した適切な文字エンコーディング、グリフをUnicode文字に変換できるようにする正確なToUnicodeマッピング、視覚的忠実性を確保するための適切なフォント埋め込み、および論理構造による適切なテキスト抽出順序が含まれます。
テキスト互換性は、単純なテキストレンダリングとは異なります。PDFは画面上で正しくテキストを表示していても、基礎となる文字マッピングが正しくない場合やフォントが適切に埋め込まれていない場合、互換性テストに失敗する可能性があります。たとえば、適切なUnicodeマッピングなしでカスタムグリフとしてレンダリングされたテキストは、視覚的には正しく見えても、検索、コピー、またはスクリーンリーダーによる読み取りができません。 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) は、アクセシブルなPDFには、視覚的な外観ではなく実際のテキストコンテンツの抽出に依存する支援技術をサポートするために、適切なテキスト表現が必要であることを強調しています。
PDF生成ライブラリや文書処理ワークフローを扱う開発者にとって、テキスト互換性はいくつかの重要なユースケースに直接影響します。
アクセシビリティ準拠: スクリーンリーダーやその他の支援技術は、PDFコンテンツを音声や点字に変換するために、適切なテキストエンコーディングとUnicodeマッピングに依存しています。テキスト互換性がない場合、文書はアクセシビリティ標準やSection 508やWCAGなどの法的要件に準拠できません。
テキスト抽出と検索: PDFコンテンツをインデックス化、データを抽出、または検索機能を実装するアプリケーションには、信頼性の高いテキスト抽出が必要です。互換性のないテキストエンコーディングは、文字化け、テキストの欠落、または抽出の失敗につながります。
クロスプラットフォーム一貫性: ユーザーは、PDFからテキストをコピーして他のアプリケーションに貼り付ける際、文字化けが発生しないことを期待しています。テキスト互換性が不十分な場合、文字の誤り、スペースの欠落、またはテキスト順序の誤りが発生し、サポート問題やユーザーの不満につながります。
長期保存: アーカイブや文書管理システムでは、プラットフォームの変更に関係なく、数十年後でもテキストが読み取れるPDFが必要です。テキスト互換性により、文書コンテンツが技術の移行を乗り越えて存続できます。
PDFテキスト互換性は、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義された相互に関連するいくつかの技術メカニズムに依存しています。
文字エンコーディング: PDF内のテキストは、文字コードをフォント内のグリフにマッピングするエンコーディング方式を使用します。WinAnsiEncodingやMacRomanEncodingなどの標準エンコーディングは基本的な互換性を提供しますが、カスタムエンコーディングには文字コードをUnicode値に明示的にマッピングするToUnicode CMap(Character Map)が必要です。適切なエンコーディングがない場合、テキスト抽出ツールは文字コードを正しく解釈できません。
フォント埋め込み: 一貫したレンダリングを確保するために、フォントはPDFに埋め込まれる(または標準フォントを使用する)必要があります。埋め込みフォントには、グリフ定義とエンコーディング情報が含まれます。フォントが埋め込まれていない場合、PDFリーダーは類似のフォントで代用するため、テキスト抽出が機能しなくなり、外観が変わる可能性があります。
ToUnicodeマッピング: カスタムエンコーディングを持つフォントやCIDキー付きフォントの場合、ToUnicode CMapsは、フォント固有の文字コードと標準Unicode値との間の重要な橋渡しを提供します。このマッピングにより、テキスト抽出ツールと支援技術が、グリフシーケンスを他のアプリケーションで処理できる意味のあるUnicodeテキストに変換できます。
ActualText代替: ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で説明されているように、Tagged PDFにはActualTextエントリを含めることができ、曖昧になる可能性のあるコンテンツや装飾フォントを使用するコンテンツに対して正しいUnicode表現を指定します。このメカニズムは、視覚要素が表すテキストを明示的に定義し、エンコーディングの曖昧さを上書きします。
論理構造と読み取り順序: テキスト互換性は、文字エンコーディングを超えて論理的な読み取り順序を含みます。Tagged PDFはコンテンツを階層的に構造化し、任意の視覚的な位置順序ではなく、正しいシーケンスでテキストが抽出されることを保証します。
- Character encoding(文字エンコーディング) – PDFフォントにおいて文字コードをグリフやUnicode値にマッピングするシステム
- Font embedding(フォント埋め込み) – 一貫したレンダリングを確保するために、完全なフォント定義をPDF文書内に含めるプロセス
- Tagged PDF – コンテンツの関係性と読み取り順序を定義する論理構造マークアップを持つPDF文書
- ToUnicode CMap – テキスト抽出のためにフォント固有の文字コードをUnicode値に変換するマッピングテーブル
- Accessibility(アクセシビリティ) – 支援技術を通じて障害を持つ人々がPDF文書を利用できるようにする設計実践
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
