Unicode mapping
Unicode mappingは、PDF内のエンコードされた文字コードを対応するUnicode値に変換する仕組みであり、正確なテキスト抽出、検索、スクリーンリーダーによるアクセスを可能にします。
Unicode mappingは、PDF内のエンコードされた文字コードを対応するUnicode値に変換する仕組みであり、正確なテキスト抽出、検索、スクリーンリーダーによるアクセスを可能にします ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。PDFでテキストがレンダリングされる際、フォントが使用する文字コードは必ずしも標準的なUnicode値に直接対応していないため、このマッピングはアクセシビリティとコンテンツの再利用において不可欠です。PDF/UAでは、支援技術が文書のテキストを正しく解釈できるよう、適切なUnicode mappingが求められます ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。
Unicode mappingは、PDFフォントが内部的に使用する文字コード(CIDまたはグリフインデックス)と、それらの文字を普遍的に表現するUnicode文字セットとの関係を確立するものです。PDF文書では、フォントがカスタムエンコード方式やベンダー固有の文字コードを使用する場合があり、これらは標準的なテキスト表現に直接マッピングされません。ToUnicode CMap(Character Map)は、このマッピングを提供する主要な仕組みであり、フォント固有のコードをUnicodeコードポイントに変換するルックアップテーブルとして機能します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。
これはフォントエンコーディングとは異なります。フォントエンコーディングは、フォントファイル内で文字にアクセスする方法を決定するものです。エンコーディングがフォントの内部構造を扱うのに対し、Unicode mappingは、その内部表現と、スクリーンリーダー、テキスト抽出ツール、検索エンジンが使用する普遍的なUnicode標準との橋渡しをします。適切なUnicode mappingがない場合、文字は視覚的には正しく表示されても、支援技術や抽出プロセスからは全くアクセスできない状態になります。
PDF生成やアクセシビリティ準拠に取り組む開発者にとって、Unicode mappingはいくつかの実用的な理由から重要です。第一に、PDF/UA準拠の必須要件であることです。適切なUnicode mappingを欠く文書はアクセシビリティ検証に失敗し、アクセシブルとして認証されません ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。スクリーンリーダーは視覚的なテキストを音声に変換する際、全面的にUnicode mappingに依存しているため、マッピングが欠落または不正確な場合、視覚障害のあるユーザーには意味不明な音声や無音が提供されることになります。
第二に、Unicode mappingはテキスト抽出の品質に直接影響します。PDFからテキストをコピーする際や、自動化ツールでコンテンツを抽出する際、Unicode mappingが抽出されるテキストの文字を決定します。不適切なマッピングは、文字化け、文字の欠落、誤った記号への置換を引き起こします。第三に、検索機能もUnicode mappingに依存しています。これがなければ、テキストが画面上で正しく表示されていても、ユーザーは文書内のテキストを確実に検索することができません。
PDFにおけるUnicode mappingは、主にToUnicode CMapsを通じて動作します。これは文字コードからUnicodeへの変換ルールを定義する埋め込みストリームオブジェクトです ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。PDFレンダリングエンジンや支援技術がテキストに遭遇すると、フォントの文字コードを使用してToUnicode CMap内の対応するUnicode値を検索します。このプロセスは、レンダリング、テキスト抽出、またはアクセシビリティツリーの構築中に透過的に行われます。
標準的なエンコーディングを使用するシンプルなフォントの場合、マッピングは単純で、暗黙的な場合もあります。しかし、複雑なフォント、特にCID-keyedフォントのような複合フォントアーキテクチャを使用するものでは、ToUnicode CMапが不可欠になります。CMapフォーマットは、範囲指定と個別の文字マッピングを定義する特殊な構文を使用し、中国語、日本語、韓国語などで使用される大規模な文字セットを効率的に表現できます。
Tagged PDF文書では、Unicode mappingは論理構造ツリーと連携して機能します ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。構造ツリーがどのテキストが存在し、その意味的役割を特定するのに対し、Unicode mappingはそのテキストを正しく抽出し解釈できることを保証します。両要素が正しく連携すると、支援技術は文書の視覚的表現と一致する正確で構造化されたコンテンツをユーザーに提供できます。
- ToUnicode CMap – 文字コードからUnicodeへの変換テーブルを格納する特定のPDFオブジェクトタイプ
- Character encoding – フォントや文字セット内の文字に数値コードを割り当てるシステム
- CID-keyed font – 適切なテキスト抽出のために通常ToUnicode CMapsを必要とする複合フォントアーキテクチャ
- ActualText – 適切にマッピングできないコンテンツに対してUnicode置換テキストを提供する構造要素属性
- Tagged PDF – Unicode mappingと連携して完全なアクセシビリティを実現する論理構造を持つPDF
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
