GlyphList
GlyphListは、Apache PDFBoxにおけるユーティリティクラスで、グリフ名とUnicodeコードポイント間のマッピングを提供し、PDF文書からの適切なテキスト抽出とレンダリングを可能にします。
GlyphListは、Apache PDFBoxにおけるユーティリティクラスで、グリフ名とUnicodeコードポイント間のマッピングを提供し、PDF文書からの適切なテキスト抽出とレンダリングを可能にします。このクラスは、PDFファイルの処理時に発生する文字エンコーディングの問題を解決するために不可欠であり、特にカスタムフォントやシンボリックフォントを扱う際に重要です。マッピングはAdobe Glyph List仕様で定義された標準化された規約に従っており、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で規定されている文字エンコーディング要件をサポートしています。
GlyphListは、Apache PDFBox APIのクラスで、PDF処理操作全体で使用されるグリフ名からUnicodeへのマッピングの包括的なデータベースを保持します。PDF文書では、文字はUnicode値で直接参照されるのではなく、グリフ名(「A」、「Aacute」、「Alpha」など)で参照されることが多くあります。GlyphListクラスは、これらのシンボリックなグリフ名を対応するUnicode文字に変換するための信頼できる参照として機能し、正確なテキスト抽出、検索、アクセシビリティ機能を実現します。フォント固有のエンコーディングテーブルは書体によって異なりますが、GlyphListは異なるフォント実装間で適用される標準化されたマッピングを提供し、使用されるフォントに関係なく一貫した文字解釈を保証します。
PDFテキスト抽出やアクセシビリティ準拠に取り組む開発者にとって、GlyphListは正確で意味のあるテキスト出力を生成するために不可欠です。適切なグリフからUnicodeへのマッピングがないと、抽出されたテキストに誤った文字、欠落した文字、または判読不能なシンボルが含まれる可能性があり、これは ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準で求められるPDFアクセシビリティ機能の品質に直接影響します。これは、支援技術にとって正確なテキスト表現が不可欠なTagged PDFを処理する際に特に重要です。GlyphListの仕組みを理解することで、開発者は文字エンコーディングの問題をトラブルシューティングし、カスタムフォント処理を実装し、PDF処理アプリケーションが多様な文書タイプやフォント構成全体でテキストコンテンツを正確に解釈できるようにすることができます。
GlyphListは、Adobe Glyph List(AGL)標準名をUnicodeスカラー値にマッピングする内部ルックアップテーブルを保持することで動作します。PDFBoxがPDF文書内でグリフ名に遭遇すると(コンテンツストリームからテキストを抽出する際など)、GlyphListに問い合わせてその名前を対応するUnicode値に解決します。このクラスは、toUnicode(String glyphName)のようなメソッドを提供し、グリフ名を入力として受け取り、対応するUnicodeコードポイントを返します。合成グリフや変形グリフに対しては、GlyphListは命名のバリエーションや代替表現を処理するためのフォールバックロジックを実装しています。マッピングは、PDF文書で一般的に使用される標準的なラテン文字、アクセント付き文字、記号、特殊文字をカバーしています。
(
Citation: PDF Association, 2023
PDF Association(2023). Retrieved from
https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
)
で説明されているTagged PDF構造を扱う際、適切なグリフマッピングにより、実際のテキストコンテンツが論理構造と一致し、視覚的レンダリングと意味的解釈の両方について文書の整合性が維持されます。
- Content Stream(コンテンツストリーム) – グリフ名が参照される描画およびテキストレンダリング命令を含むPDFのセクション
- Font Encoding(フォントエンコーディング) – PDF内の文字コードをフォント内の特定のグリフにマッピングするメカニズム
- Text Extraction(テキスト抽出) – PDF文書から読み取り可能なテキストコンテンツを取得するプロセスで、正確なグリフからUnicodeへの変換に依存する
- ToUnicode CMap – カスタム文字エンコーディング用に標準のGlyphListマッピングを上書きできるフォント固有のマッピングテーブル
- PDFont – GlyphListと連携して文字レンダリングを行うPDFフォントリソースを表すApache PDFBoxクラス
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
