Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

CCITT Group 3

CCITT Group 3は、2値(白黒)画像専用に設計された圧縮アルゴリズムで、主にファックス送信技術に関連付けられています。

カテゴリ: General PDF Concepts
キーワード: ccitt group 3, CCITT Group 3

概要

CCITT Group 3は、2値(白黒)画像専用に設計された圧縮アルゴリズムで、主にファックス送信技術に関連付けられています。PDF文書では、CCITT Group 3はスキャンされた文書やその他の2階調画像を効率的に保存するために利用できる複数の圧縮方式の1つとして機能します ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。この圧縮規格は、国際電信電話諮問委員会(CCITT、現ITU-T)によって開発され、現在でも文書画像化アプリケーションで広く使用されています。

定義

CCITT Group 3は、ランレングス符号化技術を使用して2値画像データを符号化する可逆圧縮アルゴリズムです。このアルゴリズムは、個々のピクセル値を保存するのではなく、各走査線に沿った連続する黒または白のピクセルのシーケンスを識別して符号化することで機能します。CCITT Group 3には、1次元(Group 3-1D)と2次元(Group 3-2D)の2つのバリエーションがあります。1次元バリアントは各走査線を独立して圧縮し、2次元バリアントは連続する走査線間の差分を符号化することで圧縮率を向上させます。

JPEGPNGなどの汎用画像フォーマットとは異なり、CCITT Group 3は、各ピクセルが黒または白のいずれかであり、グレースケールやカラー情報を持たない2値画像専用に最適化されています。この特化により、文書、線画、テキストベースの画像に適用した場合、汎用アルゴリズムよりも大幅に優れた圧縮率を実現できます。CCITT Group 3は、後継規格であるCCITT Group 4とは異なり、Group 4が2次元符号化のみを使用し、電話回線ではなくエラーフリー送信環境向けに設計されている点で区別されます。

重要性

PDF文書を扱う開発者にとって、CCITT Group 3圧縮を理解することは、スキャンされた文書、ファックスアーカイブ、デジタル化された紙の記録を扱う際に不可欠です。多くのレガシー文書管理システムやスキャンアプリケーションは、デフォルトでCCITT Group 3符号化を使用しているため、実際のPDF処理ワークフローで遭遇する一般的な圧縮フォーマットとなっています。CCITT圧縮画像を適切に処理することで、既存の文書リポジトリとの互換性が確保され、ファイルサイズの効率性が維持されます。

PDFの生成または操作ツールを構築する際、開発者はCCITT Group 3ストリームを認識し、レンダリング、編集、または変換操作のために画像を正しく展開する必要があります。圧縮方式は、ファイルサイズ、処理速度、メモリ要件に直接影響します。CCITT圧縮画像は、通常、非圧縮ビットマップに必要なストレージ容量の5〜10%しか消費しません。さらに、特定のアクセシビリティおよびアーカイブ標準では、圧縮された画像コンテンツの特定の処理が要求されるため、PDF/UA ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準への準拠には圧縮方式の認識が重要です。

仕組み

CCITT Group 3圧縮は、ランレングス符号化方式とハフマン符号化を組み合わせて動作します。このアルゴリズムは、2値画像の各走査線を左から右に処理し、連続する白または黒のピクセルのランを識別します。各ランレングスは、より頻繁に出現するランレングスに短いコードを割り当てる事前定義されたハフマンテーブルを使用して符号化されます。

圧縮プロセスは、画像を一連の変化要素(ピクセルの色が白から黒へ、またはその逆に遷移するポイント)に変換することから始まります。1次元モード(Group 3-1D)では、各走査線は終端コード(0〜63ピクセルのラン用)とメイクアップコード(64の倍数のラン用)を使用して独立して符号化されます。2次元モード(Group 3-2D)は、前の走査線と比較した変化要素の相対位置を、パスモード、垂直モード、水平モードコードと呼ばれる特別なコードセットを使用して符号化することで、さらなる効率性を導入します。

PDF文書 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) では、CCITT Group 3圧縮画像データは画像XObject内に保存され、ストリーム辞書で特定のパラメータが定義されます。これらのパラメータには、K(1次元または2次元符号化のどちらを使用するかを決定)、EndOfLine(行末ビットパターンが存在するかどうかを示す)、EncodedByteAlign(行パディング用)、BlackIs1(黒ピクセルの極性を定義)が含まれます。PDFリーダーは、ハフマン符号化を逆変換し、レンダリング用の元の2値画像データを再構築することで、これらのストリームを復号化する必要があります。

関連用語

  • CCITT Group 4 – より優れた圧縮率を実現するために2次元符号化のみを使用する改良された2値圧縮アルゴリズム
  • Bilevel Image(2値画像) – ピクセルあたり1ビットで、通常は黒と白の2色のみを含む画像
  • Image XObject – レンダリング用の画像データと関連メタデータを含むPDFオブジェクトタイプ
  • Flate Compression – DEFLATEメソッドに基づく汎用可逆圧縮アルゴリズムで、さまざまなPDFコンテンツストリームに一般的に使用される
  • Run-Length Encoding(ランレングス符号化) – 同一値のシーケンスを単一の値とカウントのペアとして表現する圧縮技術

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html