Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

Metadata optimization

メタデータ最適化とは、PDFドキュメント内のメタデータを効率的に構造化し、最小化することで、必須のドキュメント情報を維持しながらファイルサイズを削減し、処理パフォーマンスを向上させる実践手法です。

キーワード: metadata optimization, Metadata optimization

概要

メタデータ最適化とは、PDFドキュメント内のメタデータを効率的に構造化し、最小化することで、必須のドキュメント情報を維持しながらファイルサイズを削減し、処理パフォーマンスを向上させる実践手法です。PDFワークフローにおいて、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されるメタデータには、ドキュメントプロパティ、XMPデータストリーム、およびドキュメントとその内容を記述する構造的メタデータが含まれます。適切なメタデータ最適化は、PDF生成、配信、処理システムにおいて、記述的情報の必要性とパフォーマンスの考慮事項のバランスを取ります。

定義

メタデータ最適化とは、PDFファイルに埋め込まれたメタデータを管理し、重要なドキュメント情報を失うことなく、最適なファイルサイズ、処理速度、互換性を実現するための技術と戦略を指します。ページコンテンツや画像を対象とする一般的なPDF圧縮とは異なり、メタデータ最適化は具体的にドキュメント情報辞書、XMPメタデータストリーム、および構造的メタデータ要素を対象とします。これには、冗長または重複したメタデータエントリの削除、異なるPDFメタデータ格納メカニズム間でのメタデータの統合、不要なカスタムプロパティの除去、およびメタデータを最も効率的な形式で格納することが含まれます。 ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で説明されているTagged PDFの場合、メタデータ最適化には、ドキュメントのアクセシビリティに貢献する構造ツリー要素とロールマッピングを合理化し、オーバーヘッドを最小化することも含まれます。

重要性

PDF生成または処理システムを構築する開発者にとって、メタデータ最適化はアプリケーションのパフォーマンス、ストレージコスト、ユーザーエクスペリエンスに直接影響します。大規模または不適切に構造化されたメタデータは、特にエンタープライズワークフローやクラウドベースシステムで数千のドキュメントを生成する場合、ファイルサイズを大幅に増加させる可能性があります。最適化されたメタデータは、Webベースのデリバリーにおける帯域幅消費を削減し、ドキュメント管理システムのストレージ要件を減らし、PDFライブラリやリーダーの解析速度を向上させます。さらに、合理化されたメタデータは、 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で参照されているPDF/UAなどの標準への準拠を維持するのに役立ちます。これは、アクセシビリティメタデータを存在させ有効に保ちながら、異なるPDFプロセッサやバリデータ間で互換性の問題を引き起こす可能性のある余分なデータを削除することによって実現されます。

仕組み

メタデータ最適化は、PDF構造の複数のレイヤーで動作します。ドキュメントレベルでは、ドキュメント情報辞書(古いメタデータ形式)とXMPメタデータパケット( ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で指定されたISO 19005準拠形式)間で情報を統合し、通常は標準化のためにXMPを優先しながら非推奨のエントリを削除します。開発者は、メタデータフィールドをプログラム的に検査し、空のフィールドやデフォルト値を削除し、エンドユーザーにとって目的を果たさないアプリケーション固有のプロパティを除去することで、最適化を実装できます。Tagged PDFの場合、最適化には構造要素から不要な属性を削除すること、ロールマップ辞書から未使用のロールマッピングを削除すること、繰り返される名前空間宣言を統合することが含まれます。高度な最適化には、Flateエンコーディングを使用したXMPストリームの圧縮、バッチ処理における複数ドキュメント間の同一メタデータの重複排除、子オブジェクトが値を重複させるのではなく親メタデータを参照するメタデータ継承パターンの実装などが含まれる場合があります。ほとんどのPDFライブラリは、メタデータをプログラム的に読み取り、変更、削除するためのAPIを提供しており、開発者は特定のワークフロー要件に合わせた最適化ルーチンを作成できます。

関連用語

  • XMP (Extensible Metadata Platform) – ドキュメントプロパティと記述情報を格納するためにPDFドキュメントに埋め込まれる標準化されたメタデータ形式
  • Document Information Dictionary – タイトル、著者、作成日などの基本プロパティを含む従来のPDFメタデータ構造
  • Tagged PDF – アクセシビリティとリフローのためにドキュメントコンテンツの構成を記述するメタデータを含むPDF構造
  • PDF/A – ドキュメントの識別と保存のために特定のメタデータを必要とする長期アーカイブのためのISO標準
  • Structure Tree – Tagged PDFにおける階層的なメタデータフレームワークで、論理的なドキュメント構造と読み順序を定義します

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html