Conversion decoding

概要

Conversion decodingとは、PDFドキュメント内のエンコードされたバイトシーケンスを、指定されたエンコーディングスキームまたはCMap（Character Map）を使用して、対応する文字コードに変換するプロセスです。この操作は、PDFプロセッサがテキストコンテンツを抽出したり、検索を実行したり、アクセシビリティ目的でテキストをリフローする際に不可欠です。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によれば、適切なデコーディングにより、さまざまなエンコーディングで保存された文字データを正確に解釈し表示できることが保証されます。このプロセスは、テキスト抽出の精度がアクセシビリティ機能に直接影響するTagged PDFドキュメントにおいて特に重要です ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。

定義

Conversion decodingは、PDFコンテンツストリーム内のエンコードされたバイトを文字識別子（CID）またはUnicode値にマッピングするアルゴリズム的変換を指します。PDFドキュメントでは、テキストは通常、事前定義されたエンコーディング（WinAnsiEncodingやMacRomanEncodingなど）、PDF内で定義されたカスタムエンコーディング、またはCJK（中国語、日本語、韓国語）フォント用の複雑なCMapリソースなど、さまざまなエンコーディングスキームを使用して保存されます。

全投稿を閲覧