JBIG2
JBIG2は、2値(白黒)画像専用に設計された非可逆または可逆の圧縮方式で、スキャン文書、テキストページ、線画に対して非常に効果的です。
JBIG2は、2値(白黒)画像専用に設計された非可逆または可逆の圧縮方式で、スキャン文書、テキストページ、線画に対して非常に効果的です。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているように、JBIG2はPDFで画像データをエンコードする際にサポートされる圧縮フィルタの1つです。特に複数のページに類似したシンボルやパターンが含まれる場合、CCITT Group 4などの古い方式よりも大幅に高い圧縮率を実現できます。
JBIG2(Joint Bi-level Image Experts Group 2)は、2値画像—通常は白黒の2色のみを含む画像—専用に設計された圧縮標準です。連続階調カラー画像向けに設計されたJPEGやPNGなどの汎用画像圧縮フォーマットとは異なり、JBIG2はテキストや線画の特性を活用します。このアルゴリズムは、デコードされた画像が元の画像と同一である可逆モード、または視覚的に類似したパターンをまとめて圧縮することでより高い圧縮率を実現する非可逆モードのいずれかで動作します。PDF文書 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) では、JBIG2はファイルサイズの削減が重要でありながら可読性を維持する必要があるスキャン文書に特に有用です。この標準は、パターンマッチングと置換機能を追加することで前身のJBIG1と異なり、繰り返される形状(ページ上に複数回出現する文字「e」など)を認識してより効率的に保存できます。
PDF文書を扱う開発者にとって、JBIG2圧縮はファイルサイズ、ストレージコスト、転送速度に直接影響します。特に大量のスキャンコンテンツを処理する文書管理システムでは重要です。スキャン文書を処理する際、古い圧縮方式ではなくJBIG2を選択することで、CCITT Group 4圧縮と比較してファイルサイズを3〜10倍削減でき、帯域幅とストレージインフラの大幅な節約につながります。ただし、開発者はトレードオフを認識する必要があります。非可逆JBIG2圧縮は、光学式文字認識(OCR)の精度やアクセシビリティ機能に影響を与えるアーティファクトを時折導入する可能性があり、非可逆モードと可逆モードの選択は重要なアーキテクチャ上の決定となります。JBIG2の理解は、文書スキャンワークフロー、PDF最適化ルーチン、またはファイルサイズと文書の忠実度要件のバランスを取る必要があるコンプライアンスシステムを実装する際に不可欠です。
JBIG2圧縮は、2値画像の構造を活用するいくつかの高度な技術を通じて動作します。アルゴリズムは画像を領域に分割し—通常はテキスト、ハーフトーン、一般領域を分離—各領域に異なるエンコーディング戦略を適用します。テキスト領域では、JBIG2はパターンマッチングを使用して類似したシンボル(文字、ロゴ、繰り返し要素)を識別し、一意なシンボルの辞書を作成してから、後続の出現を辞書エントリへの参照としてエンコードします。このシンボルベースのアプローチは、同じ文字が何百回、何千回も出現する複数ページの文書で特に強力です。圧縮プロセスはコンテキストベースの算術符号化も使用でき、各ピクセルが黒または白である確率を周囲のピクセルに基づいて予測し、実際の値を効率的にエンコードできます。非可逆モードでは、JBIG2は視覚的に類似しているが同一ではないシンボルを同じパターンとして扱い、より高い圧縮率を実現しますが、置換エラーが発生する可能性があります。PDFの実装では、レンダリング時にこれらの画像を展開するために、画像ストリーム辞書にJBIG2Decodeフィルタを含める必要があり、開発者はJBIG2Globals(ページ間で共有されるシンボル辞書用)などのパラメータを指定してさらに圧縮を最適化できます。
- Image XObject – JBIG2圧縮画像を含む、PDF内の画像データとメタデータをカプセル化するコンテナオブジェクト
- Filter – JBIG2圧縮用のJBIG2Decodeを含む、PDFでストリームデータをエンコードおよび圧縮するメカニズム
- CCITT Compression – JBIG2が置き換える、2値画像圧縮の初期標準(Group 3およびGroup 4ファクス圧縮)
- Stream Object – JBIG2エンコーディングを使用できる、圧縮画像などの大量のデータを含むPDFオブジェクトタイプ
- Lossy Compression – JBIG2のパターン置換モードでオプションとして使用される、情報を破棄してファイルサイズを削減する圧縮技術
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
