Image encoding

概要

PDFにおけるImage encodingとは、PDF文書内で画像データを表現するために使用される方法と圧縮アルゴリズムを指します。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によれば、PDFはDCTDecode（JPEG）、FlateDecode（PNG類似）、JBIG2Decode、JPXDecode（JPEG2000）を含む複数の画像エンコード形式をサポートしており、それぞれ異なる画像タイプと品質要件に最適化されています。エンコード方式の選択は、ファイルサイズ、レンダリングパフォーマンス、画像の忠実度に直接影響します。

定義

Image encodingとは、生の画像データを圧縮形式に変換し、PDFのコンテンツストリーム内に埋め込んだり、外部オブジェクトとして参照できるようにするプロセスです。Web形式における単純な画像埋め込みとは異なり、PDFのimage encodingでは ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義された特定のフィルタータイプが使用され、画像データの圧縮と保存方法が決定されます。各エンコード方法は、圧縮レベル、色空間、ビット深度、デコード指示などのパラメータを指定するフィルター辞書を使用します。PDF仕様は、（写真用のDCTDecodeのような）非可逆エンコードと（線画用のFlateDecode のような）可逆エンコードの両方をサポートしており、開発者はコンテンツタイプに応じてファイルサイズまたは画像品質のいずれかを最適化できます。

全投稿を閲覧

Kerning

概要

カーニング（Kerning）とは、テキスト内の特定のグリフ（文字）のペア間における水平方向の間隔を調整し、最適な視覚的外観と可読性を実現する技術です。すべての文字に一律に適用される一般的な文字間隔調整とは異なり、カーニングは特定の文字の組み合わせを対象とします。これらの組み合わせは、文字の形状により、調整がないと不自然な間隔に見えてしまいます。PDFドキュメントでは、カーニング情報は通常フォントプログラムに埋め込まれており、テキストのレンダリング時に適用することで、プロフェッショナルなタイポグラフィを実現できます ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。

定義

カーニングは、隣接する2つのグリフ間の間隔を、それぞれの形状と視覚的特性に基づいて変更するタイポグラフィの技術です。たとえば、「AV」という文字ペアでは、傾斜した形状により、標準的な字幅が示すよりも文字を近づけて配置でき、視覚的にバランスの取れた外観を実現できます。

カーニングは、トラッキング（letter-spacing）とは異なります。トラッキングは、テキスト範囲内のすべての文字に対して均一な間隔調整を適用します。トラッキングが単語やテキストブロック全体に等しく影響するのに対し、カーニングはペア固有のものであり、特定のグリフの組み合わせ間の独自の空間関係に対処します。また、カーニングは一般的な文字の字幅とも異なります。字幅は、文字が占めるデフォルトの水平スペースを定義するものです。

PDFファイルでは、カーニングデータは通常、カーニングテーブルまたは位置調整としてフォントプログラム内に格納されています。フォントには、数百または数千のカーニングペアが含まれることがあり、それぞれが特定のグリフの組み合わせ間の間隔をどれだけ調整するかを指定しています。一般的なカーニングペアには、「Yo」、「Ta」、「We」、「AV」などの組み合わせがあり、隣接する文字の形状が視覚的な間隔の問題を引き起こします。

重要性

PDF生成、テキストレイアウト、またはドキュメントアクセシビリティに取り組む開発者にとって、カーニングを理解することは、いくつかの理由で重要です。

全投稿を閲覧

Ligature

概要

Ligature（合字）は、2文字以上の文字列を表す単一のグリフであり、タイポグラフィにおいて視覚的な美しさと可読性を向上させるために一般的に使用されます。PDF文書では、ligatureはフォント内の個別のグリフとして保存されますが、正確なテキスト抽出とアクセシビリティを確保するために、構成要素である文字に適切にマッピングされる必要があります ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。一般的な例としては「fi」「fl」「ff」「ffi」「ffl」などがあり、結合された形式により不自然な間隔や文字の衝突を防ぎます。

定義

Ligatureは、複数の文字を単一の視覚的単位に組み合わせたタイポグラフィ文字です。単に文字を隣接して配置するのとは異なり、ligatureはフォントファイル内で独立したグリフとして設計されており、各部分の単純な合計とは異なる独自の視覚的表現を持ちます。例えば、多くのセリフフォントでは、「fi」ligatureは「i」のドットと「f」のフックを接続して、より美しく読みやすい組み合わせを作り出します。

PDFの文脈では、ligatureはマルチバイト文字や合成グリフとは異なり、複数の論理的文字を表現しながら単一の視覚的要素として表示されます。PDF仕様では、ToUnicode CMapsまたはActualTextエントリを通じた適切な文字マッピングが要求されており、ユーザーがligatureを含むテキストを選択、コピー、検索する際に、基礎となる文字列が正しく解釈されることを保証します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。

全投稿を閲覧

Ligature substitution

概要

Ligature substitution（合字置換）は、複数の連続する文字が自動的に単一の合成グリフに置き換えられるタイポグラフィ機能です。視覚的な表示では合字が使用されますが、テキスト抽出やアクセシビリティのために元の文字列は維持されます。一般的な例として、“f"と"i"を"fi"に結合する、または"f"と"l"を"fl"に結合するなどがあります。PDF文書では、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で規定されているように、正確なUnicodeマッピングとテキスト抽出のために、合字の適切な処理が不可欠です。

定義

Ligature substitutionは、PDFレンダリングにおける双方向マッピングプロセスです。表示時には文字列が特別にデザインされたグリフに置き換えられ、コンテンツ抽出時には元の構成文字に正しくマッピングされます。1文字が1グリフに対応する単純な文字対グリフマッピングとは異なり、ligature substitutionはレンダリング時に多対一の関係、抽出時に一対多の関係を持ちます。

PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) では、合字を含むフォントは適切なToUnicodeマッピングを提供することが求められています。これにより、PDFからテキストがコピーまたは抽出される際、合字グリフが表す複数のUnicode文字を正しく返すことが保証されます。これは結合文字とは異なります。結合文字は一緒にレンダリングされる個別のUnicodeコードポイントを表すものであり、単一のグリフに置き換えられる複数の基本文字とは性質が異なります。

全投稿を閲覧

LZ77

概要

LZ77は、PDF文書で使用される多くの圧縮方式の基礎となる可逆データ圧縮アルゴリズムです。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で規定されているように、FlateDecode（ZLIB/DEFLATEアルゴリズムを使用）などのLZ77ベースの圧縮方式は、PDFのコンテンツストリーム、画像データ、その他のオブジェクトに広く適用され、データの完全性を保ちながらファイルサイズを削減します。この圧縮技術は、PDFのパフォーマンスを最適化し、ストレージ要件を最小限に抑えるために特に重要です。

定義

LZ77は、1977年にAbraham LempelとJacob Zivによって開発された辞書ベースの圧縮アルゴリズムで、スライディングウィンドウ内の以前の出現箇所への参照でデータの繰り返し出現を置き換えることによって機能します。文字の頻度を分析する統計的圧縮方式とは異なり、LZ77は重複するバイトシーケンスを検出し、以前のデータを指す（距離、長さ）のペアとして符号化する原理で動作します。

PDFの文脈において、LZ77は ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているFlateDecodeフィルターを通じて実装されるDEFLATE圧縮方式の基盤となるアルゴリズムです。PDFのコンテンツストリームや画像がFlateDecodeを使用して圧縮される場合、LZ77アルゴリズムはデータ内の繰り返しパターンを識別し、それらをコンパクトな後方参照に置き換え、その後ハフマン符号化によってさらに圧縮します。

全投稿を閲覧

OpenType font

概要

OpenType fontは、TrueTypeまたはCFF（Compact Font Format）のいずれかのアウトラインデータと、高度なタイポグラフィ機能を含むことができるクロスプラットフォームのフォントファイル形式です。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で規定されているように、OpenType fontはPDF文書で広くサポートされており、従来のフォント形式を超える拡張機能を提供します。この形式は、異なるオペレーティングシステムやアプリケーション間で一貫して動作する統一されたフォント標準を作成するために、MicrosoftとAdobeが共同で開発しました。

定義

OpenType fontは、フォントのアウトラインデータと関連するメタデータのコンテナとして機能するフォントプログラム形式です。プラットフォーム固有であった古いフォント形式とは異なり、OpenType fontはWindows、macOS、Linux、その他のオペレーティングシステムで動作する単一のファイル形式を使用します。この形式は、TrueTypeアウトライン（二次ベジェ曲線を使用）またはCFFアウトライン（三次ベジェ曲線を使用）のいずれかを含むことができるため、どちらの形式で設計されたフォントにも対応できる柔軟性があります。

OpenType fontは、いくつかの重要な点で先行する形式と異なります。TrueType fontがTrueTypeアウトラインのみを含み、Type 1 fontがPostScriptアウトラインのみを含むのに対し、OpenTypeはどちらのタイプも保持できるラッパーとして機能します。さらに、OpenType fontは、合字、代替文字、文脈的置換などの高度なタイポグラフィ機能や、OpenType Layoutテーブルを通じた複雑なスクリプトや言語のサポートを提供します。この形式はテーブルベースの構造を使用しており、フォントのさまざまな側面（メトリクス、文字マッピング、グリフ、レイアウト機能）が単一ファイル内の別々のテーブルに格納されます。

全投稿を閲覧

PDF content encoding

概要

PDF content encodingとは、PDFファイルのコンテンツストリーム内でテキスト、グラフィックス、その他のコンテンツを表現するために使用される方法を指します。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によると、コンテンツストリームにはページコンテンツを記述するオペレーターとオペランドのシーケンスが含まれており、エンコーディングはこのデータがどのように圧縮され構造化されるかを決定します。適切なエンコーディングにより、PDFコンテンツが効率的に保存され、正確にレンダリングされ、異なるプラットフォームやアプリケーション間でアクセス可能になることが保証されます。

定義

PDF content encodingは、PDF文書内のデータ表現の複数の層を包含します。最も基本的なレベルでは、Flate（ZIP）、LZW、ASCII85などのストリームエンコーディング方式が含まれ、これらは生のコンテンツストリームデータを圧縮します。圧縮以外にも、エンコーディングとは、文字エンコーディングスキーム（WinAnsiEncodingやMacRomanEncodingなど）を通じてテキスト文字がグリフにマッピングされる方法、およびCMapリソースが適切なテキスト抽出のために文字コードをUnicode値にマッピングする方法を指します。

これはフォントエンコーディングとは異なります。フォントエンコーディングは特定のフォント内で文字がどのように表現されるかを具体的に扱うのに対し、content encodingはより広範で、コンテンツストリーム構造全体を含みます。また、文書レベルの暗号化とも異なります。暗号化はPDFファイル全体を保護するものであり、単にストレージ効率のためにコンテンツをエンコードするものではありません。

重要性

PDF生成または操作を行う開発者にとって、content encodingの理解は以下の理由から重要です：

全投稿を閲覧

PDF dictionary encoding

概要

PDF dictionary encodingとは、PDF辞書オブジェクト内で指定される文字エンコーディング方式であり、テキストデータをどのように解釈し表示するかを定義します。PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) において、辞書はキーと値のペアを含む基本的なデータ構造であり、エンコーディングエントリは文字コードと対応するグリフとの間のマッピングを決定します。これは、視覚的な表示とアクセシビリティ機能の両方において適切な文字表現が不可欠なフォント辞書やテキストレンダリング操作において特に重要です。

定義

PDF dictionary encodingは、PDF辞書オブジェクト内で定義されるプロパティであり、最も一般的にはフォント辞書に見られ、文字コードを実際の文字やグリフにマッピングするために使用されるエンコーディング方式を指定します。エンコーディングは、事前定義されたエンコーディング名（WinAnsiEncoding、MacRomanEncoding、MacExpertEncodingなど）、カスタム文字マッピングを定義するエンコーディング辞書、または複雑なスクリプトやマルチバイト文字セット用のCMapへの参照として指定できます。

コンテンツストリーム内でテキストオペレータがバイトシーケンスをどのように解釈するかを扱うコンテンツストリームエンコーディングとは異なり、dictionary encodingはフォントオブジェクトレベルで文字からグリフへのマッピングを具体的に定義します。この区別は重要です。なぜなら、フォント辞書で指定されたエンコーディングによって、同じバイト値が異なる文字を表す可能性があるためです。PDF dictionary encodingは、アプリケーションやシステムレベルではなくPDFオブジェクトレベルで動作する点でUnicodeエンコーディングとは異なりますが、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で概説されているように、適切なエンコーディング指定はUnicodeマッピングとアクセシビリティ準拠に不可欠です。

全投稿を閲覧

PDF encoding

概要

PDF encodingとは、PDFファイル内の文字コードを、フォント内の特定のグリフ（文字の視覚的表現）にマッピングする方法を指します。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によれば、encodingはテキストコンテンツを正しく表示するために不可欠であり、PDFのコンテンツストリーム内のバイト値と、それが表す実際の文字との関係を定義します。適切なencodingにより、テキストが正しくレンダリングされ、検索、コピー、そして支援技術によるアクセスが可能になります。

定義

PDF encodingとは、数値コードを表示可能な文字に変換する、文字からグリフへのマッピング機構です。テキストがPDFに書き込まれる際、バイト列で構成されており、これらはencodingスキームを通じて解釈され、フォントのどのグリフを表示すべきかが決定されます。

PDFは、事前定義されたencoding（WinAnsiEncoding、MacRomanEncoding、StandardEncodingなど）、PDFファイル内で定義されるカスタムencoding、およびUnicodeベースのフォントで使用されるIdentity encodingなど、複数のencodingタイプをサポートしています。単純な文字セットが1対1のマッピングを提供するのに対し、PDF encodingは、特に複雑なスクリプトや大規模な文字セットに使用される合成フォント（CIDFont）を扱う際に、複数の変換レイヤーを含むことがあります。

encodingは文字セットとは異なり、PDFコンテキスト内でバイト値がフォントグリフにどのようにマップされるかを具体的に定義します。一方、文字セットは、割り当てられたコードポイントを持つ文字の広範なコレクションです。また、PDF encodingはUnicodeとも異なり、ドキュメント構造内のフォントレベルで動作しますが、Unicodeは普遍的な文字エンコーディング規格です。

重要性

PDF生成、操作、抽出を行う開発者にとって、PDF encodingの理解は、いくつかの実用的な理由から重要です：

全投稿を閲覧

PDF object encoding

概要

PDFオブジェクトエンコーディングとは、PDFファイル内のPDFオブジェクト内部のデータをどのように表現し圧縮するかという手法を指します。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によると、PDFオブジェクトはFlate（deflate圧縮）などのフィルター、ASCIIエンコーディング方式、16進数エンコーディングなど、さまざまなエンコーディングスキームを使用してファイルサイズを最適化し、データの整合性を保証できます。オブジェクトエンコーディングの理解は、PDFの生成、解析、または操作を行う開発者にとって不可欠です。

定義

PDFオブジェクトエンコーディングは、PDFオブジェクト内の生データをPDFファイル構造内での保存に適した形式に変換するプロセスです。PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) では、ストリーム（画像、フォント、ページコンテンツなどのコンテンツを含む）などのオブジェクトは、データを圧縮またはエンコードするフィルターを使用してエンコードできます。一般的なエンコーディングフィルターには、FlateDecode（zlib/deflate圧縮）、ASCIIHexDecode（16進数エンコーディング）、ASCII85Decode（base-85エンコーディング）、LZWDecode（Lempel-Ziv-Welch圧縮）などがあります。

全投稿を閲覧