Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

Selectable text

Selectable text(選択可能なテキスト)とは、PDF文書内において、画像や図形要素としてレンダリングされるのではなく、実際のテキスト文字としてエンコードされたまま保持されているテキストコンテンツを指します。

カテゴリ: General PDF Concepts
キーワード: selectable text, Selectable text

概要

Selectable text(選択可能なテキスト)とは、PDF文書内において、画像や図形要素としてレンダリングされるのではなく、実際のテキスト文字としてエンコードされたまま保持されているテキストコンテンツを指します。このテキストデータの保持により、ユーザーはPDFビューアや支援技術を使用して、コンテンツの選択、コピー、検索を行うことができます。 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によれば、PDF内のテキストは特定のオペレーターと文字エンコーディングを使用して表現されており、アプリケーションがコンテンツを純粋な視覚要素としてではなく、言語データとして解釈および操作できるようになっています。

定義

Selectable textとは、文字レベルのエンコーディングを維持しているPDF内のテキストコンテンツであり、PDFビューアやその他のアプリケーションが個々の文字、単語、文を離散的なテキスト単位として識別できるようにするものです。テキストの画像表現のみを含むスキャン文書とは異なり、selectable textを持つPDFは、テキストをプログラム的にレンダリングおよび操作するために必要な実際の文字コードとフォント情報を保存します。

これは、(紙文書をスキャンして生成されるような)テキストの画像とは異なります。画像の場合、文字の視覚的外観はピクセルとしてのみ存在し、基礎となる文字データは含まれません。また、アウトライン化またはベクター化されたテキストとも異なります。この場合、文字は表示可能な図形パスに変換されていますが、ソフトウェアによってテキストとして認識されることはありません。Selectable textは、視覚的外観だけでなく、コンテンツの意味論的な意味も保持します。

重要性

PDF生成、処理、またはアクセシビリティに取り組む開発者にとって、テキストがselectable(選択可能)な状態を保つことは、いくつかの実用的な理由から極めて重要です。

アクセシビリティ準拠: Selectable textは、スクリーンリーダーやその他の支援技術が文書コンテンツにアクセスするための基盤です。 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) に記載されているように、アクセシブルなPDFは、テキストコンテンツが機械可読形式で利用可能である必要があり、それにより障害を持つユーザーに代替モダリティを通じてコンテンツを提示できます。

検索機能: ユーザーは文書内を検索できることを期待しており、検索エンジンはPDFコンテンツをインデックス化する必要があります。Selectable textがなければ、文書はユーザーのクエリと自動インデックスシステムの両方に対して不透明になります。

コンテンツの抽出と再利用: アプリケーションは、分析、翻訳、データ処理、または他の形式への変換のために、PDFからテキストを抽出する必要が頻繁にあります。Selectable textがあればこれらの操作は簡単ですが、画像ベースのテキストではOCR(光学式文字認識)処理が必要となり、処理速度が遅く、精度も低く、リソース集約的です。

ユーザーエクスペリエンス: 引用、メモ取り、または参照のためにテキストの一節をコピーする機能は、デジタル文書における基本的な期待事項です。Selectable textのない文書は、ユーザーをフラストレーションさせ、文書の有用性を制限します。

仕組み

技術的レベルでは、PDFにおけるselectable textは、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているいくつかの重要なメカニズムに依存しています。

テキスト表示オペレーター: PDFは、ページ上にテキストを表示するために特定のオペレーター(TjTJ'"など)を使用します。これらのオペレーターは、指定されたフォント内のグリフにマップされる文字コードを参照します。これらのオペレーターを使用してテキストが表示されると、基礎となる文字データがコンテンツストリーム内に保持されるため、テキストは選択可能な状態を維持します。

フォントエンコーディング: PDF内の各フォントには、文字コードを特定のグリフにマップするエンコーディング情報が含まれています。シンプルフォントは事前定義されたエンコーディングを使用し、Type 0フォント(通常、複雑なスクリプトに使用される)はCMapリソースを使用してマルチバイト文字コードを処理します。このエンコーディング層により、ソフトウェアはどの文字が表示されているかを解釈できます。

ToUnicodeマッピング: 信頼性の高いテキスト抽出と検索を可能にするために、PDFには、フォントの内部文字コードからUnicode値への明示的なマッピングを提供するToUnicode CMapを含める必要があります。これは、フォントがカスタムエンコーディングを使用している場合に特に重要です。ToUnicodeマッピングにより、PDFプロセッサは表示されたテキストを、検索、コピー、処理が可能な標準Unicode文字に変換できます。

論理構造: ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で説明されているように、Tagged PDFでは、テキストコンテンツを、コンテンツの論理的な読み順序と意味的役割を定義する構造要素に関連付けることで、selectable textが強化されます。この構造化されたアプローチにより、テキストの選択と抽出が、ページ上の物理的なレイアウト順序ではなく、意図された読み順序に従うことが保証されます。

ユーザーがPDFビューアでテキストを選択すると、アプリケーションは選択領域内にあるテキスト表示オペレーターを識別し、対応する文字コードを抽出し、適切なToUnicodeマッピングを適用して、結果として得られるUnicodeテキストをユーザーまたはクリップボードに提示します。

関連用語

  • Tagged PDF – コンテンツの読み順序と意味的意味を定義する論理構造情報を持つPDFで、テキスト選択とアクセシビリティを強化します
  • OCR (Optical Character Recognition) – 文字パターンを認識してテキストの画像をselectable textに変換する技術
  • Text extraction – PDFコンテンツストリームから文字データを取得し、他のアプリケーションやワークフローで使用するプロセス
  • ToUnicode CMap – PDFフォント内のマッピングテーブルで、内部文字コードをUnicode値に変換し、信頼性の高いテキスト抽出を実現します
  • Content stream – 各ページに表示される内容を定義するオペレーターとオペランドを含むPDFのセクションで、テキスト表示コマンドを含みます

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html