PDF content optimization
PDFコンテンツ最適化とは、視覚的な忠実性やドキュメント機能を損なうことなく、PDFドキュメントの内部構造の再構築、圧縮、または冗長データの削除により、ファイルサイズを削減しパフォーマンスを向上させるプロセスです。
PDFコンテンツ最適化とは、視覚的な忠実性やドキュメント機能を損なうことなく、PDFドキュメントの内部構造の再構築、圧縮、または冗長データの削除により、ファイルサイズを削減しパフォーマンスを向上させるプロセスです。この最適化は、Webでの配信、モバイルアプリケーション、大量のPDFファイルを扱うシステムにとって不可欠です。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によると、PDFには複数のオブジェクトタイプとデータストリームが含まれており、これらを効率的に圧縮・再編成することで、ストレージと転送コストを最小化できます。
PDFコンテンツ最適化とは、PDFファイルの内部構造を変更してファイルサイズを小さくし、処理時間を短縮するさまざまな技術を指します。単純な圧縮(アルゴリズムによってファイルサイズを削減するのみ)とは異なり、コンテンツ最適化には、画像、フォント、メタデータ、ページコンテンツストリーム、埋め込みリソースなど、PDFコンポーネントのインテリジェントな分析と再構築が含まれます。
最適化は、既存のPDFファイルに対して後処理ステップとして機能する点で、PDF作成設定とは異なります。作成設定が初期ファイル特性を決定するのに対し、最適化はドキュメント構造全体を分析して冗長性、不要なデータ、より効率的なエンコーディングの機会を特定します。これには、重複した埋め込みフォントの削除、画像のダウンサンプリング、未使用オブジェクトの除去、透明度の統合、高速Web表示のための線形化などが含まれます。
コンテンツ最適化は、アクセシビリティ強化とも異なります。最適化はドキュメントの外観を維持しながらファイル効率に焦点を当てるのに対し、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で説明されているアクセシビリティ機能は、障害を持つユーザーがコンテンツを認識しナビゲートできるようにすることに焦点を当てています。
PDF生成アプリケーションやドキュメント管理システムを構築する開発者にとって、コンテンツ最適化はユーザーエクスペリエンスとインフラストラクチャコストに直接影響します。大きなPDFファイルはページ読み込み時間を増加させ、帯域幅を消費し、ストレージリソースに負荷をかけます。これは特に、モバイルユーザーにPDFを提供するWebアプリケーションや、毎日数千のドキュメントを処理するシステムにとって問題となります。
プログラムで生成されたPDFを扱う場合、最適化は特に重要になります。これらのPDFには、専門的に作成されたドキュメントには存在しない非効率性が含まれることが多いためです。自動ドキュメント生成では、必要なサブセットのみで十分な場合にフルフォントセットを埋め込んだり、冗長なコンテンツストリームを作成したり、埋め込み画像に最適な圧縮を適用しなかったりすることがあります。PDFワークフローに最適化を実装することで、場合によってはファイルサイズを50〜90%削減でき、アプリケーションのパフォーマンスを大幅に向上させることができます。
さらに、最適化されたPDFは、テキスト抽出、レンダリング、アーカイブなどの下流操作の検索性と処理速度を向上させます。 ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 準拠のTagged PDFなど、ドキュメント構造を維持する必要があるアプリケーションの場合、最適化は論理構造ツリーを保持しながらサイズ削減を実現する必要があります。
PDFコンテンツ最適化は、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているドキュメント構造のいくつかの層で動作します。
画像最適化: 高解像度画像を使用目的に適したDPI(通常、画面表示では150〜300 DPI)にダウンサンプリングし、許容可能な品質損失でJPEGまたはJPEG2000圧縮を適用し、画像を適切なカラースペースに変換します。開発者は、ユースケースに基づいて品質閾値と解像度ターゲットを指定できます。
フォントのサブセット化と重複排除: ドキュメント内で実際に使用されている文字グリフのみを抽出し、完全なフォントプログラムを埋め込むのではなく、同じフォントの複数のインスタンスを単一の埋め込みリソースに統合します。これは、多くのページにわたって共通のフォントを使用するドキュメントで特に効果的です。
オブジェクトストリーム圧縮: DEFLATEまたは他のアルゴリズムを使用してPDFオブジェクトを圧縮し、複数の小さなオブジェクトをオブジェクトストリームに結合してより効率的な圧縮率を実現します。最新のPDFプロセッサは、既存のストリームをより優れたアルゴリズムで再圧縮できます。
構造のクリーンアップ: 参照されていないオブジェクトの削除、重複リソースの排除、不要になったプライベートアプリケーションデータの破棄、必要でない場合のJavaScriptやアクションの削除を行います。この剪定により、表示されるコンテンツに影響を与えることなくファイルのオーバーヘッドが削減されます。
コンテンツストリームの最適化: ページコンテンツストリームを書き換えて、冗長なオペレータを排除し、グラフィックス状態の変更を統合し、ページ境界外に配置された非表示要素を削除します。
線形化: “fast web view"のためにファイルを再構築し、最も重要なオブジェクトをファイルの先頭に再配置することで、ブラウザがファイル全体をダウンロードする前に最初のページを表示できるようにします。
- PDF compression – PDFオブジェクトとストリーム内のデータサイズを削減するためのアルゴリズムの適用
- Font embedding – 一貫したレンダリングを確保するためにPDFファイル内にフォントプログラムを含めること
- Linearized PDF – Webブラウザでのプログレッシブダウンロードと表示に最適化されたPDFファイル構造
- Object streams – 効率的なストレージのために複数の圧縮されたオブジェクトを含むPDF構造
- Image resampling – 許容可能な品質を維持しながらファイルサイズを削減するために画像解像度を変更するプロセス
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
