Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

CIDFont

CIDFontは、PDF文書でマルチバイト文字エンコーディングを扱うために使用される特殊なフォントタイプで、特に中国語、日本語、韓国語などの東アジア言語に対応します。

カテゴリ: Text & Fonts
キーワード: cidfont, CIDFont

概要

CIDFontは、PDF文書でマルチバイト文字エンコーディングを扱うために使用される特殊なフォントタイプで、特に中国語、日本語、韓国語などの東アジア言語に対応します。 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているように、CIDFontは複合フォントと連携して動作する子孫フォントであり、文字識別子(CID)をグリフ記述にマッピングします。CIDFontには2つのタイプがあります:CIDFontType0(Type 1フォント技術ベース)とCIDFontType2(TrueTypeフォント技術ベース)です。

定義

CIDFontは、単純なシングルバイトエンコーディングでは効率的に表現できない大規模な文字セットをサポートするために特別に設計されたフォント形式です。バイト値を直接グリフにマッピングする従来のPDFフォントとは異なり、CIDFontは文字識別子(CID)を使用します。CIDは文字コレクション内の各文字を一意に識別する数値です。CIDFontは常にType 0複合フォント内の子孫フォントとして使用され、PDFコンテンツストリームで直接参照されることはありません。

2つのCIDFontタイプは、基盤となるグリフ記述技術が異なります:CIDFontType0はCompact Font Format(CFF)を使用し、Type 1フォントアウトラインをベースとしています。一方、CIDFontType2はTrueTypeフォントアウトラインを使用します。両タイプとも大規模な文字セットにグリフ記述を提供するという同じ目的を果たしますが、実際のグリフ形状を記述するために異なるフォント技術を使用します。

重要性

国際的なPDF文書を扱う開発者にとって、CIDFontの理解はテキストの適切なレンダリングと抽出に不可欠です。CIDFontにより、PDFは膨大なフォントファイルや文字マッピングテーブルを作成することなく、数千の文字を含む言語を正しく表示できます。PDFテキスト抽出を実装する際、開発者はCIDFontマッピングを正しく処理して、CIDをUnicode文字に変換する必要があります。CIDFont構造を適切に処理しないと、多言語文書で文字化け、文字の欠落、または不正確な文字間隔が発生する可能性があります。さらに、 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で概説されているアクセシビリティコンプライアンスのためには、適切なCIDFont処理により、スクリーンリーダーや支援技術が複雑なスクリプトを含む文書のテキストコンテンツを正確に解釈できることが保証されます。

仕組み

CIDFontは階層的なフォントアーキテクチャ内で動作します。最上位レベルでは、Type 0複合フォント(CIDFontとも呼ばれる)がエンコーディングを定義し、PDFコンテンツストリームからの文字コードをCIDにマッピングします。次に、子孫フォントとして参照されるCIDFont自体が、これらのCIDを実際のグリフ記述にマッピングします。

( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で指定されているように、マッピングプロセスにはいくつかの重要なコンポーネントが含まれます:

CMapCharacter Map:文字コード(1バイト以上)からCIDへのマッピングを定義します。CMapは事前定義(既知の文字コレクション用の標準マッピング)またはPDFに埋め込まれます。

Character Collection(文字コレクション):CIDFontがサポートするように設計された完全な文字セットを識別します(例:Adobe-Japan1やAdobe-GB1)。

CIDSystemInfo:文字コレクションのregistry、ordering、supplement番号を識別する辞書で、正しい文字セットが使用されることを保証します。

グリフ記述:各グリフの実際のアウトラインデータで、CFF形式(CIDFontType0)またはTrueType形式(CIDFontType2)で保存されます。

テキストがレンダリングされる際、PDFプロセッサはまずCMapを使用してコンテンツストリームからのバイトシーケンスをCIDに変換し、次にCIDFontを使用して対応するグリフ記述を取得してレンダリングします。この2段階のマッピングプロセスにより、大規模な文字セットのグリフデータへの効率的なアクセスを維持しながら、エンコーディングの柔軟性が提供されます。

関連用語

  • Type 0 Font – マルチバイトエンコーディングをサポートするためにCIDFontを子孫として使用する複合フォント
  • CMap – CIDFontシステムで文字コードをCIDに変換する文字マッピングテーブル
  • Character Collection – registry、ordering、supplementで識別される標準化された文字セット
  • Font Descriptor – 適切なテキストレンダリングに必要なフォントメトリクスと属性を含む辞書
  • ToUnicode CMap – テキスト抽出とアクセシビリティのために文字コードをUnicode値に変換するマッピングテーブル

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html