PDF compression
PDF compressionとは、PDFドキュメントの視覚的な忠実性と構造的な整合性を維持しながら、ファイルサイズを削減するために使用される技術とアルゴリズムを指します。
PDF compressionとは、PDFドキュメントの視覚的な忠実性と構造的な整合性を維持しながら、ファイルサイズを削減するために使用される技術とアルゴリズムを指します。PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) は、テキスト、画像、メタデータなど、PDF内のさまざまな種類のコンテンツに適用できる複数の圧縮方法を定義しています。効果的な圧縮は、本番環境で効率的に保存、転送、処理できるPDFを作成するために不可欠です。
PDF compressionは、PDFファイル構造内のさまざまなコンポーネントに対して動作する、多層的なデータ削減アプローチです。ファイル全体を単一のバイナリブロブとして扱うZIPのような単純なファイル圧縮形式とは異なり、PDF compressionはオブジェクトレベルで機能し、同じドキュメント内のさまざまなコンテンツタイプに異なる圧縮アルゴリズムを適用できます。PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) は、Flate(ZIP/gzipに類似)、LZW、モノクロ画像用のJBIG2、カラー画像用のJPEGおよびJPEG2000、シンプルなパターン用のRun-Length Encodingなど、複数の圧縮フィルターをサポートしています。これらの圧縮方法は、コンテンツタイプと品質要件に応じて、ロスレス(すべての元データを保持)またはロッシー(より高い圧縮率を実現するために一部のデータを破棄)のいずれかになります。
PDFの生成、処理、またはストレージシステムを扱う開発者にとって、圧縮を理解することは、いくつかの実用的な理由から重要です。圧縮されたPDFは、ストレージコストと帯域幅要件を大幅に削減します。これは、大規模なドキュメントリポジトリや大量のドキュメント生成ワークフローを扱う場合に特に重要になります。適切な圧縮の選択は、アプリケーションパフォーマンスに直接影響します。ファイルサイズが小さいほど、ビューアでの読み込みが速く、ネットワーク経由での転送が迅速で、処理中のメモリ消費も少なくなります。さらに、圧縮はPDFのアクセシビリティと長期的な使いやすさにも影響します。過度に積極的なロッシー圧縮は、テキストのレンダリング品質を低下させ、PDF/UA ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準で求められるテキスト抽出、OCR、アクセシビリティ機能を妨げる可能性があります。
PDF compressionは、PDF構造内の特定のオブジェクトタイプに異なる圧縮フィルターが適用される階層的なシステムを通じて動作します。テキストコンテンツとベクターグラフィックスは通常、データストリーム内の繰り返しパターンを識別するロスレス方式であるFlateアルゴリズムを使用して圧縮されます。画像オブジェクトは、その特性に応じてさまざまな圧縮スキームを使用できます。写真コンテンツにはJPEGまたはJPEG2000、テキストを含むスキャンドキュメントにはJBIG2、白黒画像にはCCITTFaxなどです。プログラムでPDFを作成または処理する際、開発者は圧縮方法を識別する/Filterエントリを含むストリームディクショナリを通じて圧縮パラメータを指定します。PDF 1.5で導入されたオブジェクトストリームとクロスリファレンスストリームは、複数の間接オブジェクトをグループ化してまとめて圧縮することで、追加の圧縮機会を提供します。最新のPDFプロセッサは、重複リソースの削除、使用される文字のみを含むようなフォントのサブセット化、画像の適切な解像度へのダウンサンプリングなどのコンテンツ最適化技術も適用できます。PDF仕様
(
Citation: N.A., 2020
(N.A.).
(2020).
Document management — Portable document format — Part 2: PDF 2.0
.
International Organization for Standardization
Retrieved from
https://www.iso.org/standard/75839.html
)
は、各圧縮フィルターの正確な構文とパラメータを定義しており、準拠するリーダーが作成時に適用された圧縮方法に関係なくコンテンツを適切に解凍できることを保証しています。
- Content stream – ページの視覚的な外観を記述する命令のシーケンスで、一般的にFlateエンコーディングで圧縮されます
- Object stream – より効率的な圧縮のために複数の間接オブジェクトをグループ化するPDF構造
- Filter – ストリームに適用される圧縮またはエンコーディングアルゴリズムを指定するPDFメカニズム
- Image XObject – 画像固有のアルゴリズムを使用して圧縮できる画像データを含む外部オブジェクト
- Linearization – より高速なWeb表示のためにファイル構造を再編成するPDF最適化技術で、多くの場合圧縮と組み合わせて使用されます
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
