CIDFont
CIDFontは、PDF文書でマルチバイト文字エンコーディングを扱うために使用される特殊なフォントタイプで、特に中国語、日本語、韓国語などの東アジア言語に対応します。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているように、CIDFontは複合フォントと連携して動作する子孫フォントであり、文字識別子(CID)をグリフ記述にマッピングします。CIDFontには2つのタイプがあります:CIDFontType0(Type 1フォント技術ベース)とCIDFontType2(TrueTypeフォント技術ベース)です。
CIDFontは、単純なシングルバイトエンコーディングでは効率的に表現できない大規模な文字セットをサポートするために特別に設計されたフォント形式です。バイト値を直接グリフにマッピングする従来のPDFフォントとは異なり、CIDFontは文字識別子(CID)を使用します。CIDは文字コレクション内の各文字を一意に識別する数値です。CIDFontは常にType 0複合フォント内の子孫フォントとして使用され、PDFコンテンツストリームで直接参照されることはありません。
2つのCIDFontタイプは、基盤となるグリフ記述技術が異なります:CIDFontType0はCompact Font Format(CFF)を使用し、Type 1フォントアウトラインをベースとしています。一方、CIDFontType2はTrueTypeフォントアウトラインを使用します。両タイプとも大規模な文字セットにグリフ記述を提供するという同じ目的を果たしますが、実際のグリフ形状を記述するために異なるフォント技術を使用します。
国際的なPDF文書を扱う開発者にとって、CIDFontの理解はテキストの適切なレンダリングと抽出に不可欠です。CIDFontにより、PDFは膨大なフォントファイルや文字マッピングテーブルを作成することなく、数千の文字を含む言語を正しく表示できます。PDFテキスト抽出を実装する際、開発者はCIDFontマッピングを正しく処理して、CIDをUnicode文字に変換する必要があります。CIDFont構造を適切に処理しないと、多言語文書で文字化け、文字の欠落、または不正確な文字間隔が発生する可能性があります。さらに、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で概説されているアクセシビリティコンプライアンスのためには、適切なCIDFont処理により、スクリーンリーダーや支援技術が複雑なスクリプトを含む文書のテキストコンテンツを正確に解釈できることが保証されます。
