Metadata encoding
Metadata encodingとは、PDF文書内のテキストメタデータを表現するために使用される文字エンコーディング方式を指します。
Metadata encodingとは、PDF文書内のテキストメタデータを表現するために使用される文字エンコーディング方式を指します。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によれば、PDFメタデータはPDFDocEncodingまたはUnicode(UTF-16BE)のいずれかを使用してエンコードでき、国際的な文字サポートにはUnicodeの使用が推奨されています。適切なメタデータエンコーディングにより、タイトル、著者、キーワードなどの文書情報が、異なるシステムやロケール間で正しく解釈されることが保証されます。
Metadata encodingは、PDFのメタデータフィールド内のテキスト文字を、文書構造内に保存するためのバイナリデータに変換する方法を定義する技術仕様です。PDFワークフローにおいて、メタデータは主に2つの場所に存在します:文書情報辞書とXMP(Extensible Metadata Platform)メタデータストリームです。文書情報辞書は、伝統的にPDFDocEncoding(ASCIIのスーパーセット)をデフォルトエンコーディングとして使用しますが、BOM(バイトオーダーマーク)が前置されている場合はUTF-16BE Unicodeを使用できます。対照的に、XMPメタデータは常にUTF-8エンコードされたXMLです。これは、レンダリングされたページに表示されるテキストを処理し、フォント仕様に基づいて異なるエンコーディングルールに従うコンテンツストリームエンコーディングとは異なります。
PDF生成や操作を行う開発者にとって、メタデータエンコーディングの理解は、適切な国際化とアクセシビリティを確保する上で不可欠です。誤ってエンコードされたメタデータは、ユーザーが文書プロパティを表示する際に文字化けを引き起こしたり、検索機能の破損、または ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で言及されているように文書構造を理解するためにメタデータに依存するアクセシビリティツールの障害を引き起こす可能性があります。複数の言語や地域にわたってPDFを処理するアプリケーションを構築する際、適切なエンコーディング方式を選択することで、データ損失を防ぎ、特殊文字、ダイアクリティカルマーク、非ラテン文字スクリプトが保持されることを保証します。これは、エンタープライズ文書管理システム、アーカイブソリューション、およびアクセシビリティ標準に準拠する必要があるアプリケーションにとって特に重要です。
PDFメタデータエンコーディングは、文書構造内の2つの異なるレベルで動作します。文書情報辞書のエントリ(トレーラーの/Infoキーを介してアクセス)については、テキスト文字列はデフォルトでPDFDocEncodingとして解釈されますが、Unicode BOM(0xFE 0xFF)で始まる場合はUTF-16BEエンコーディングを示します。開発者がプログラム的にメタデータを設定する際、PDFライブラリは通常このエンコーディングを自動的に処理しますが、基礎となるメカニズムを理解することは、エンコーディングの問題をデバッグする際や低レベルのPDF操作を行う際に役立ちます。XMPメタデータストリーム(/Metadataキーで識別される)については、コンテンツは常にUTF-8エンコードされたXMLであり、XMP仕様に従い、複雑なメタデータシナリオに対してより堅牢で拡張可能なフレームワークを提供します。現代のPDFワークフローでは、標準化と優れたUnicodeサポートにより、
(
Citation: PDF Association, 2023
PDF Association(2023). Retrieved from
https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
)
で概説されているアクセシブルで適切に構造化された文書を作成するためのベストプラクティスに沿って、XMPメタデータがますます好まれています。
- Document Information Dictionary – タイトル、著者、作成日などの基本的な文書プロパティを含む、従来のPDFメタデータ構造
- XMP Metadata – PDF文書内に拡張可能で標準化されたメタデータストレージを提供するXMLベースのメタデータフレームワーク
- PDFDocEncoding – コンテンツストリーム外のPDFテキスト文字列のデフォルトとして使用される単一バイト文字エンコーディング方式
- Unicode BOM – PDFテキスト文字列でUTF-16エンコーディングを示すバイトオーダーマークで、国際文字サポートを可能にする
- Character Encoding – デジタル保存と伝送のために文字をバイナリ表現にマッピングする一般的なプロセス
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
