Text extraction

概要

テキスト抽出とは、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているコンテンツストリーム、フォント定義、文字エンコーディング情報を解釈することで、PDFファイルから読み取り可能なテキストコンテンツを読み取り、再構築するプロセスです。単に表示されているテキストをコピーするのとは異なり、抽出にはページ上にグリフを配置する複雑な命令をデコードし、それらをUnicode文字にマッピングする作業が必要です。このプロセスは、PDFコンテンツをアクセシブルで検索可能、かつ様々なアプリケーション間で再利用可能にするための基礎となります。

定義

テキスト抽出は、PDFコンテンツストリームを解析してテキスト表示演算子（Tj、TJ、'、"など）とそれに関連する文字コードを識別し、次にドキュメントのフォントディクショナリを使用してそれらのコードを実際のテキスト文字にマッピングする作業を含みます。PDF形式では、テキストはプレーンテキスト文字列としてではなく、一連の低レベル描画コマンドとして保存されるため、抽出ツールは論理的な読み取り順序を再構築し、様々なエンコーディングスキーム（事前定義エンコーディング、CMAPリソース、ToUnicodeマッピングなど）を処理し、Type 1、TrueType、OpenTypeフォントを含む様々なフォントタイプを考慮する必要があります。

テキスト抽出は、テキストの視覚的表現を分析する光学文字認識（OCR）や、タグ付きコンテンツ構造への単純なアクセスとは大きく異なります。 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) では、アクセシブルなPDFには適切な構造と代替テキスト説明を含めるべきであると強調されていますが、テキスト抽出は、ドキュメントがアクセシビリティのためにタグ付けされているかどうかに関係なく、コンテンツストリーム自体から基礎となる文字データを回復することに特化しています。

全投稿を閲覧

Text line matrix

概要

テキストラインマトリックスは、PDFコンテンツストリーム内で現在のテキスト行の開始位置を追跡する変換マトリックスです。テキストマトリックスと連携してテキストの配置を制御し、PDF文書における適切なテキストレンダリングに不可欠な要素です ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。テキストラインマトリックスはテキスト配置演算子によって変更され、新しいテキスト行を開始する際の基準点として機能します。

定義

テキストラインマトリックスは、PDFのテキストオブジェクトモデルにおいてページ上のテキスト配置に使用される2つのマトリックスのうちの1つです。テキストマトリックス（Tm）が次のグリフが配置される行内の現在位置を追跡するのに対し、テキストラインマトリックス（Tlm）は現在のテキスト行の開始座標を記録します。この区別は重要です。なぜなら、PDFはテキストが現在レンダリングされている位置と行が開始された位置の両方を維持する必要があり、これによりキャリッジリターンや改行などの操作が可能になるからです。テキストラインマトリックスは、T*、Td、TD演算子が新しい行の開始位置に移動する際など、特定の時点でテキストマトリックスと自動的に同期されます。すべてのグラフィックス操作に影響を与えるカレント変換マトリックス（CTM）とは異なり、テキストラインマトリックスはテキストオブジェクト内でのみ動作し、テキストの配置にのみ影響を与えます。

重要性

PDF生成や操作を行う開発者にとって、テキストラインマトリックスの理解は正確なテキストレイアウト動作を実装するために不可欠です。PDFコンテンツストリームをプログラムで作成する際、特に複数行のテキストブロックを扱う場合やテキストのリフローを実装する場合、予測可能なテキスト配置を実現するにはテキストマトリックスとテキストラインマトリックスの両方を適切に管理する必要があります。テキストラインマトリックスは、既存のPDFを解析してテキストコンテンツを抽出する際に特に重要になります。行の開始位置を知ることで、改行や段落構造を判断することができます。テキストラインマトリックスの不適切な処理は、テキストが予期しない位置に表示されたり、コンテンツが重なったり、テキスト抽出アルゴリズムが適切な行境界を認識できなくなったりする原因となります。

全投稿を閲覧

Text rendering mode

概要

Text rendering modeは、PDFにおいてテキスト文字がページ上にどのように表示されるかを決定するパラメータです。これにより、テキストを色で塗りつぶして表示するか、アウトラインで表示するか、クリッピングパスとして使用するか、またはドキュメント構造に影響を与えながら非表示で描画するかを制御します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。この設定により、開発者は標準的な塗りつぶし文字からアウトライン化されたテキスト、さらには検索可能でアクセシブルな非表示テキストまで、テキストで様々な視覚効果を作成できます。

定義

Text rendering modeは、PDFのグラフィックスステートパラメータの一つで、テキストのグリフをどのように描画するかを定義します。PDF仕様では、テキストオブジェクトに適用できる8つの異なる描画モード（0〜7の番号）が定義されています。これらのモードは、文字の形状を塗りつぶすか、ストローク（アウトライン）するか、またはその両方を行うか、さらに現在のクリッピングパスに追加するか、非表示にするかを決定します。

8つの標準的なtext rendering modeは以下の通りです：

Mode 0: テキストを塗りつぶす（デフォルト）
Mode 1: テキストをストロークする
Mode 2: テキストを塗りつぶしてからストロークする
Mode 3: 塗りつぶしもストロークもしない（非表示）
Mode 4: テキストを塗りつぶしてクリッピングパスに追加する
Mode 5: テキストをストロークしてクリッピングパスに追加する
Mode 6: テキストを塗りつぶし、ストロークして、クリッピングパスに追加する
Mode 7: テキストをクリッピングパスにのみ追加する

単純な色やフォントのプロパティとは異なり、text rendering modeはテキストがPDFグラフィックスモデルとどのように相互作用するかを根本的に変更し、見た目だけでなく、テキストがクリッピング操作にどのように関与するかにも影響を与えます。

全投稿を閲覧

Text rise

概要

Text riseは、PDFにおけるテキストフォーマットパラメータの1つで、ベースラインからのテキスト文字の垂直オフセットを制御します。PDFコンテンツストリーム内でTsオペレータを使用して指定し、ベースラインを基準として文字を上方（正の値）または下方（負の値）に移動させます ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。このパラメータは、フォントサイズや周囲のテキストのベースライン位置を変更することなく、上付き文字、下付き文字、その他の垂直方向のテキスト配置効果を作成する際によく使用されます。

定義

Text riseは、テキストスペース単位で表される数値で、テキストベースライン自体を変更することなく、個々の文字またはテキスト実行を垂直方向にシフトします。PDFコンテンツストリーム内でTsオペレータが適用されると、新しいtext rise値が設定されるまで、後続のテキストは指定された垂直オフセットでレンダリングされます。正の値はテキストをベースラインより上に移動させ（上付き文字に有用）、負の値はテキストをベースラインより下に移動させます（下付き文字に有用）。

複数のテキストプロパティに同時に影響を与えるフォントサイズの変更や行列変換とは異なり、text riseは垂直位置のみを変更する専用パラメータです。テキスト行のベースラインは変更されないため、text riseはグリフのレンダリング位置に影響を与えながら、テキスト行の論理的な流れと間隔計算を維持します。これにより、text riseは単一のテキスト行内でのインラインフォーマット変化に特に効率的です。

重要性

PDFの生成や操作を行う開発者にとって、text riseは、科学・数学文書、法的引用、脚注マーカー、および印刷的に正しいコンテンツを適切にフォーマットするために不可欠です。Text riseを理解することで、開発者は以下のことが可能になります：

全投稿を閲覧

Thumbnail generation

概要

サムネイル生成とは、PDFページの小さな低解像度のプレビュー画像を作成するプロセスであり、ドキュメント内を素早く視覚的にナビゲートできるようにします。これらのサムネイルは、完全なページレンダリングを必要とせずに、ユーザーにページコンテンツの視覚的な概要を提供します。PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) では、ユーザーエクスペリエンスを向上させるために、サムネイルをオプションのページ属性としてPDFドキュメント内に埋め込む方法が定義されています。

定義

サムネイル生成は、PDFページの縮小されたビットマップ表現を作成することを含み、通常、幅または高さが100から200ピクセルの範囲になります。これらのプレビュー画像は、PDF構造内でimage XObjectとして保存され、ドキュメント作成時に事前生成するか、必要に応じてPDFビューアアプリケーションによって動的に作成できます。完全なページレンダリングとは異なり、サムネイルは詳細な精度よりも速度とメモリ効率を優先し、縮小された寸法では見えない細かい詳細、注釈、またはインタラクティブ要素を省略することがよくあります。サムネイルは、コンテンツレビューではなくナビゲーションインターフェース用に特別に最適化されている点で、ページプレビューとは異なります。

重要性

PDFビューアまたはドキュメント管理システムを実装する開発者にとって、サムネイル生成は、ユーザーが複数ページのドキュメントを素早く閲覧できる直感的なナビゲーションインターフェースを作成するために不可欠です。PDF作成時にサムネイルを事前生成して埋め込むことで、特にベクターグラフィックス、フォント、または透明度を含む複雑なページを持つドキュメントの場合、繰り返しのレンダリング操作を回避することでアプリケーションのパフォーマンスを大幅に向上させることができます。サムネイルの実装を理解することは、開発者がファイルサイズ（埋め込みサムネイルはドキュメントサイズを増加させる）とランタイムパフォーマンス（オンデマンド生成には処理時間が必要）のバランスを取るのに役立ちます。適切に実装されたサムネイルは、大きなドキュメントでもレスポンシブなナビゲーションを提供することで、Webアプリケーション、モバイルビューア、デスクトップソフトウェアでのユーザーエクスペリエンスを向上させます。

全投稿を閲覧

TIFF

概要

TIFF（Tagged Image File Format）は、文書イメージングやスキャンワークフローで広く使用されている、汎用性が高くプラットフォーム非依存の画像コンテナ形式です。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているPDF文書に画像を埋め込む際、TIFFは特にスキャンされた文書の元形式として一般的に使用されます。1つのファイルに複数ページを含むことができるためです。さまざまな色空間、圧縮方式、メタデータを格納できる柔軟性により、文書保存やPDF変換において自然な選択肢となっています。

定義

TIFFは、タグベースの構造を使用して画像データと画像特性を記述するメタデータを格納するラスター画像ファイル形式です。BMPやJPEGのようなシンプルな形式とは異なり、TIFFは1つのファイル内に複数の画像（ページ）を含むことができ、さまざまな圧縮方式（LZW、CCITT Group 4、非圧縮など）をサポートし、異なる色モデル（グレースケール、RGB、CMYK、インデックスカラー）に対応できます。カスタムタグによる拡張性により、解像度、カラープロファイル、注釈などの追加情報を格納することができます。PDFワークフローでは、TIFFファイルは頻繁にPDF形式に変換され、通常、各TIFFページが結果のPDF文書内の個別のページになります。TIFF自体はPDFのネイティブ画像形式ではありませんが、PDF文書を作成する際、TIFFファイルの画像データは一般的に抽出され、PDF互換の圧縮方式を使用して再エンコードされます。

重要性

PDF生成や文書管理システムを扱う開発者にとって、TIFFを理解することは極めて重要です。なぜなら、TIFFはスキャンされた文書入力の支配的な形式であり続けているからです。多くのエンタープライズ文書ワークフローは、スキャナ、ファックス機、文書イメージングシステムによって生成されたTIFFファイルから始まります。これらのファイルを ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの規格に準拠したアクセシブルなPDFに変換する際、開発者は画質を保持しながらファイルサイズを最適化するために、TIFFのさまざまな圧縮方式と色空間を正しく処理する必要があります。マルチページTIFFファイルは特に課題があり、ページを反復処理し、検索可能でタグ付けされたPDFを作成するためにOCR（光学文字認識）を適用するロジックが必要になる場合があります。TIFF入力を効率的に処理する能力は、エンタープライズ環境における文書変換パイプラインのパフォーマンスと信頼性に直接影響します。

全投稿を閲覧

Tiny text removal threshold

概要

Tiny text removal thresholdは、PDF処理で使用される変換オプションで、出力ドキュメントから極めて小さいテキスト要素をフィルタリングまたは除外します。このしきい値は通常、最小フォントサイズ（ポイント単位）として定義され、変換操作中にこれを下回るテキストコンテンツが除外されます。PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) では特定のテキストサイズ要件は規定されていませんが、この機能はユーザーに見えない、または判読不可能なテキストを削除することで、ドキュメント処理を最適化します。

定義

Tiny text removal thresholdは、PDF変換および処理ワークフローにおける設定可能なパラメータで、最小テキストサイズ基準を確立します。有効化すると、指定されたしきい値よりも小さいフォントサイズでレンダリングされたテキストは、結果として生成される出力から自動的に削除されます。これはテキストの可視性設定や不透明度制御とは異なり、視覚的プロパティではなく実際のフォントサイズメトリックに基づいて動作します。この機能は、PDFを他の形式（HTML、画像、アクセシブルなドキュメントなど）に変換する際に特に有用です。極小のテキスト要素は実用的な目的を果たさず、処理の複雑化やアクセシビリティの問題を引き起こす可能性があるためです。

重要性

PDF変換パイプラインを扱う開発者にとって、tiny text removal thresholdはいくつかの実用的な利点を提供します。第一に、コンテンツ抽出やアクセシビリティワークフローを妨げる可能性のある装飾的または隠されたテキスト要素を排除することで、出力ドキュメントをクリーンアップします。第二に、分析、レンダリング、または変換が必要なテキストオブジェクトの量を削減することで、処理パフォーマンスを向上させることができます。第三に、PDF/UA ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準に準拠したアクセシブルなドキュメントを作成する際、知覚できないほど小さいテキストを削除することで、スクリーンリーダーやその他の支援技術における混乱を防ぎます。最後に、PDFにセキュリティ透かし、トラッキング要素、または変換後の出力に表示すべきでないその他のマイクロテキストが含まれている場合に対処するのに役立ちます。

全投稿を閲覧

Transformation matrix

概要

Transformation matrixは、PDF内のグラフィックスやテキスト操作において、ある座標系から別の座標系へ座標をマッピングする方法を定義する、6つの数値で構成される数学的構造です。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で規定されているように、これらのアフィン変換により、PDF文書内のグラフィック要素やテキストの拡大縮小、回転、平行移動、傾斜が可能になります。Transformation matrixは、PDFの座標ベースのレンダリングモデルの基礎であり、ページ上のコンテンツの配置と外観を正確に制御できます。

定義

PDFにおけるtransformation matrixは、6つの数値[a b c d e f]で表される3×3行列であり、第3列は暗黙的に[0 0 1]となっています。これらの6つの値は、座標(x, y)を新しい座標(x’, y’)にマッピングするアフィン変換を定義し、以下の式を使用します：

x’ = a × x + c × y + e
y’ = b × x + d × y + f

行列パラメータは特定の変換の側面を制御します：aとdはxとy方向の拡大縮小を制御し、bとcは回転と傾斜を制御し、eとfはxとy軸に沿った平行移動（移動）を制御します。一般的な行列変換とは異なり、アフィン変換は平行線と線に沿った距離の比を保持するため、2Dグラフィックス操作に最適です。Transformation matrixは、単純な座標オフセットとは異なり、複数の操作を単一の数学的構造で複雑に組み合わせることができます。

全投稿を閲覧

TrimBox

概要

TrimBoxは、PDF文書におけるページ境界の一つで、印刷製造工程で余分な用紙を断裁した後の完成ページの意図された寸法を定義します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。これは、印刷時に使用される物理的なメディアサイズよりも通常小さい、裁断後の印刷ページの最終サイズを表します。TrimBoxの理解は、印刷用PDFやドキュメントレンダリングシステムを扱う開発者にとって、製造上の補助要素と最終的なコンテンツ境界を区別する上で不可欠です。

定義

TrimBoxは、PDF仕様で定義されている複数の境界ボックスの一つで、ページの表示と処理方法を制御します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。これは、商業印刷の仕上げ工程でページを物理的に裁断すべき位置を具体的に示します。物理メディア（用紙）のサイズを定義するMediaBoxとは異なり、TrimBoxは断裁後のより小さい最終ページサイズを定義します。PDFでTrimBoxが明示的に指定されていない場合、MediaBoxの寸法がデフォルトとなり、断裁の意図がないことを意味します。

全投稿を閲覧

User space

概要

User spaceは、PDFドキュメント内でコンテンツの配置とレンダリングに使用されるデフォルトの座標系です ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。これは2次元平面を定義し、座標は通常1インチの1/72に相当する単位で測定されます。この単位は、タイポグラフィで伝統的に使用されるポイント測定に近いものです。PDF内のすべてのグラフィカルオブジェクト、テキスト、画像は、変換が適用される前に、最初にuser space座標を使用して指定されます。

定義

User spaceは、PDFコンテンツストリームがグラフィカル要素の位置と寸法を記述する基本的な座標系です。デフォルトでは、原点(0,0)はページの左下隅に配置され、x軸は右に、y軸は上に伸びています ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。User spaceの基本測定単位は1/72インチで、つまり72 user space単位が1インチに等しくなります。これはPostScriptから継承された慣例で、伝統的な印刷ポイントと一致します。

全投稿を閲覧