Encoding
PDFにおけるEncodingは、シンプルフォント用に文字コード(数値)とグリフ名または文字識別子との対応関係を定義します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。このマッピングにより、テキスト文字列内で特定のバイト値が検出された際に、どの視覚的なグリフを表示するかが決定されます。テキストが正しく表示され、PDF文書から確実に抽出できるようにするためには、適切なエンコーディング設定が不可欠です。
EncodingとはPDF文書内のシンプルフォント(Type 1、TrueType、Type 3フォント)で使用される参照機構です。PDFファイルに格納された数値コードを、フォント内の特定のグリフを識別する参照情報に変換する変換テーブルとして機能します。より複雑な文字識別システムを使用する複合フォント(CIDFont)とは異なり、シンプルフォントは各1バイトコード(0〜255)を特定のグリフ名にマッピングする直接的なエンコーディングマッピングに依存しています。
PDFはStandardEncoding、MacRomanEncoding、WinAnsiEncodingなどの定義済みエンコーディングスキームに加え、開発者が特定の文字とグリフのマッピングを定義できるカスタムEncodingディクショナリもサポートしています ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。エンコーディングはフォントディクショナリ内で直接指定することも、フォントの組み込みエンコーディングから継承し、オプションで差分を適用することもできます。
