CIDSystemInfo
CIDSystemInfoは、Apache PDFBoxにおいて、PDF文書内のCIDキー付きフォントで使用される文字コレクションに関するメタデータを表現するディクショナリです。
CIDSystemInfoは、Apache PDFBoxにおいて、PDF文書内のCIDキー付きフォントで使用される文字コレクションに関するメタデータを表現するディクショナリです。このクラスは、PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているCIDSystemInfoディクショナリに対応しており、コンポジットフォントの文字コレクションと順序付けスキームを識別します。PDFBoxにおいて、CIDSystemInfoクラスは、東アジア言語などで使用される大規模な文字セットをサポートするフォント内で、文字がどのように組織化され識別されるかについての情報を読み取り、操作することを可能にします。
CIDSystemInfoは、Apache PDFBoxのJavaクラスであり、Registry、Ordering、Supplementという3つの主要なプロパティをカプセル化します。これらのプロパティは、CIDキー付きフォントで使用される文字コレクションを一意に識別します。Registryフィールドは文字コレクションの発行者を識別し(通常は「Adobe」)、Orderingフィールドは特定の文字コレクション(「Japan1」や「GB1」など)を指定し、Supplementフィールドはそのコレクションのバージョンを示します。この情報は、コンポジットフォントにおける文字識別子(CID)を正しく解釈するために不可欠です。コンポジットフォントは、シンプルフォントで使用される直接エンコーディングではなく、2段階のプロセスを通じて文字コードをグリフにマッピングします。
PDFBoxを使用する開発者にとって、複雑なスクリプトや国際化されたコンテンツを含むPDF文書を処理する際に、CIDSystemInfoを理解することは不可欠です。CIDSystemInfoを適切に処理することで、文字コレクションが正しく識別され、テキスト抽出の精度、フォント置換、文書のレンダリングに直接影響します。これは特に、支援技術のために正しい文字とグリフのマッピングを維持する必要があるアクセシブルなPDF ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) を作成する際に重要です。CIDSystemInfoを正しく解釈しないと、東アジア言語、アラビア語、その他の複雑なスクリプトを使用する文書からテキストを適切に抽出できず、データの損失や文字化けした出力につながる可能性があります。
PDFBoxがCIDキー付きフォントを含むPDF文書を解析する際、フォントのCIDFontディクショナリ構造からCIDSystemInfoディクショナリを読み取ります。このAPIは、Registry、Ordering、Supplementの値に対するゲッターとセッターメソッドを提供し、開発者がこれらのプロパティをプログラム的に照会または変更できるようにします。例えば、あるフォントがRegistry=“Adobe”、Ordering=“Japan1”、Supplement=6というCIDSystemInfoを持つ場合、それはAdobe-Japan1-6文字コレクションを使用していることを示します。PDFBoxは、この情報をCMapリソースと組み合わせて使用し、PDFコンテンツストリーム内の文字コードを適切な文字識別子に変換し、それがフォントプログラム内の特定のグリフにマッピングされます。この多段階の参照プロセスにより、単一のフォントがコンパクトなファイルサイズを維持しながら、数千の文字を効率的にサポートすることが可能になります。
- CIDFont – 大規模な文字セット内のグリフを参照するために、文字コードではなく文字識別子を使用するフォントタイプ
- CMap – コンポジットフォントにおいて文字コードを文字識別子(CID)に変換するマッピングテーブル
- Composite Font – 大規模な文字コレクションをサポートするために、CIDFontとCMapを組み合わせたフォントタイプ
- Character Collection – 特定の言語やスクリプトに使用される、定義された文字のセットとそれに関連付けられたCID
- Font Dictionary – フォントのメタデータとフォントプログラムへの参照を含むPDFディクショナリ構造
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
