CCITTFaxG31DDecodeInputStream
CCITTFaxG31DDecodeInputStreamは、CCITT Group 3一次元FAX圧縮アルゴリズムを使用してエンコードされた画像データの展開を処理する、Apache PDFBoxの特殊なJavaクラスです。
CCITTFaxG31DDecodeInputStreamは、CCITT Group 3一次元FAX圧縮アルゴリズムを使用してエンコードされた画像データの展開を処理する、Apache PDFBoxの特殊なJavaクラスです。この圧縮方式は、PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているように、PDF文書内の白黒画像、特にスキャンされた文書に一般的に使用されます。このクラスは、PDF文書から読み取られる際にCCITT圧縮された画像データを透過的にデコードする入力ストリームインターフェースを提供します。
CCITTFaxG31DDecodeInputStreamは、CCITT Group 3一次元(G3-1D)FAXデコーディングを専門的に処理する、JavaのInputStreamクラスの具象実装です。PDFBox内の他の画像デコーダーとは異なり、このクラスはCCITT Group 3圧縮の一次元バリアントのみに焦点を当てており、各スキャンラインが前の行を参照せずに独立してエンコードされます。これは、隣接するスキャンラインを参照することでより高度な圧縮を行うCCITT Group 4またはGroup 3二次元エンコーディングとは異なります。このクラスはPDFBoxのフィルターフレームワークの一部であり、PDFファイルから画像コンテンツを抽出してレンダリングするための様々な展開アルゴリズムを提供します。PDF文書に一次元エンコーディングを指定するCCITTFaxDecodeフィルターパラメーターを持つ画像が含まれている場合、このクラスが実際のバイトレベルの展開作業を実行します。
スキャンされた画像やFAX送信を含むPDF文書を扱う開発者にとって、CCITTFaxG31DDecodeInputStreamを理解することは、適切な画像抽出とレンダリングに不可欠です。多くのレガシー文書、特にFAX機やドキュメントスキャナーに由来する文書は、白黒コンテンツの画質を維持しながらファイルサイズを最小化するためにCCITT圧縮を使用しています。適切なデコードサポートがなければ、これらの画像はPDFから表示または抽出できません。このクラスはまた、アクセシブルなPDF文書 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) を作成する開発者にとっても重要です。適切にデコードされた画像は、代替テキスト生成やその他のアクセシビリティ機能のために処理できるからです。さらに、このデコーダーを理解することで、開発者はPDF処理アプリケーションにおける画像レンダリングの問題をトラブルシューティングし、大量のスキャン文書を処理する際のパフォーマンスを最適化できます。
CCITTFaxG31DDecodeInputStreamは、基礎となる入力ストリームから圧縮されたバイトデータを読み取り、CCITT Group 3一次元展開アルゴリズムをオンザフライで適用することによって動作します。読み取り操作が要求されると、クラスはスキャンライン内の黒と白のピクセルのシーケンスを表すランレングスエンコードされたデータをデコードします。このアルゴリズムは、ITU-T T.4標準で規定されたハフマン符号化テーブルを使用して、可変長コードをピクセルのランに展開します。一次元モードでは各スキャンラインが独立して処理され、デコーダーはライン内の現在位置に関する状態情報を維持し、白と黒のランの間を遷移します。このクラスは、画像の幅(Columns)、画像の高さ(Rows)、黒ピクセルを1としてエンコードするか0としてエンコードするか(BlackIs1)などの様々なエンコーディングパラメーターを処理します。これらは通常、PDFのDecodeParms辞書で指定されます。エラーハンドリングメカニズムは、圧縮データが切り詰められているか破損している場合を管理し、不完全なソース文書を処理する際に完全な失敗ではなく段階的な劣化を可能にします。
- CCITTFaxDecode – 画像データにCCITT圧縮を適用すべきことを指定するPDFフィルター名
- DecodeParms – CCITTパラメーターを含む画像デコーダーの設定用パラメーターを含むPDFファイル内の辞書
- ImageXObject – 文書に埋め込まれた画像を表すPDF構造で、CCITT圧縮を使用する場合がある
- Filter – ストリームデータに適用される圧縮およびエンコーディングアルゴリズムを指定する一般的なPDFメカニズム
- RunLengthDecode – よりシンプルなランレングスエンコーディングを使用する、バイナリ画像の代替圧縮方法
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
