Image extraction

キーワード: image extraction, Image extraction

概要

Image extraction（画像抽出）は、PDF文書に埋め込まれた画像データを取り出すプロセスであり、開発者が視覚的コンテンツにアクセスし、分析、アーカイブ、または再利用のためにエクスポートできるようにします。PDF文書には、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているように、さまざまな形式と圧縮方式の画像を含めることができます。これには、直接埋め込まれた画像オブジェクトと、PDFの内部表現から再構築する必要がある画像の両方が含まれます。この操作は、コンテンツ移行、アクセシビリティの向上、および文書処理ワークフローにとって基本的なものです。

定義

Image extractionとは、PDFファイル内に保存されているラスター画像データをプログラム的に取得することを指します。単純なスクリーンショットのキャプチャやページのレンダリングとは異なり、image extractionは、PDFのコンテンツストリームに埋め込まれた実際の画像オブジェクト（ImageタイプのXObject）にアクセスします。これらの画像は、PDF構造内で個別のオブジェクトとして存在し、それぞれが独自のカラースペース、解像度、および圧縮パラメータを持っています。

抽出プロセスは、ページの新しいラスタライゼーションを作成するのではなく、元の画像データを取得するという点でレンダリングとは異なります。画像が抽出されると、開発者は、保存形式（JPEG、JPEG2000、JBIG2、またはその他の形式）の画像と、寸法、色深度、圧縮設定などの関連メタデータを取得します。一部の画像は、ソフトマスクの適用、透明度の処理、またはカラースペース間の変換など、使用可能な出力ファイルを生成するための追加の処理ステップが必要になる場合があります。

重要性

PDF処理アプリケーションに取り組む開発者にとって、image extractionはいくつかの実用的なシナリオにおいて不可欠です。コンテンツ管理システムでは、個別の保存、インデックス作成、またはWebインターフェースでの表示のために画像を抽出する必要があることがよくあります。アクセシビリティワークフローでは、代替テキスト説明を生成したり、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で定義されているように意味のある画像が適切にタグ付けされていることを確認したりするために、画像を抽出する必要がある場合があります。

Image extractionは、文書分析や機械学習アプリケーションにおいても重要な役割を果たします。これらのアプリケーションでは、光学文字認識（OCR）、オブジェクト検出、または分類タスクのために画像を分離する必要があります。さらに、アーカイブおよび保存ワークフローは、PDFから保存に適した形式にコンテンツを移行したり、埋め込まれた画像の品質と解像度を監査したりするために、image extractionに依存しています。画像を適切に抽出する方法を理解することで、開発者は処理中に画像の忠実性を維持し、品質の低下を回避できます。

仕組み

Image extractionは、PDF文書構造をトラバースして、ページのコンテンツストリームとリソース辞書内の画像XObjectを見つけることによって動作します。PDFの各ページには、そのページのコンテンツストリームで使用される利用可能な画像、フォント、およびその他のアセットをカタログ化するリソース辞書が含まれています。画像XObjectはそのサブタイプによって識別され、文書全体で複数回参照できます。

抽出プロセスには、いくつかの技術的なステップが含まれます。まず、PDFパーサーが画像XObjectを識別し、圧縮された画像バイトを含むストリームデータを取得します。ストリーム辞書は、幅、高さ、コンポーネントあたりのビット数、カラースペース、および適用されたフィルタ（圧縮方法）を含む重要なメタデータを提供します。一般的なフィルタには、DCTDecode（JPEG）、JPXDecode（JPEG2000）、FlateDecode（ZIP）、および白黒画像用のCCITTFaxDecodeが含まれます。

画像ストリームが見つかったら、そのフィルタ仕様に従ってデコードする必要があります。一部の画像は、透明度のためのソフトマスク（SMask）の適用、インデックスカラースペースのRGBへの変換、または個別のXObjectとしてではなくコンテンツストリームに直接埋め込まれたインライン画像の処理など、追加の変換が必要です。画像マスクとステンシルマスクは、他の画像の透明度またはクリッピング領域を定義するため、さらに複雑さを追加します。開発者は、ページ上の単一の視覚的画像が複数のオーバーレイされた画像オブジェクトで構成されている可能性があり、最終的な外観を生成するために再構築ロジックが必要になる場合があることも考慮する必要があります。

出典

(N.A.) (2020): (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
(N.A.) (2014): (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html

概要

定義

重要性

仕組み

関連用語

出典