Rasterized text
ラスタライズされたテキスト(Rasterized text)とは、PDF内のテキストコンテンツがベクターベースの文字データからビットマップ画像に変換されたものを指します。
ラスタライズされたテキスト(Rasterized text)とは、PDF内のテキストコンテンツがベクターベースの文字データからビットマップ画像に変換されたものを指します。テキストがラスタライズされると、各文字はフォントメトリクスやUnicode値で定義された選択可能で検索可能なテキストデータではなく、ピクセルの集合体となります。このプロセスは、PDFがテキスト情報を保存および表示する方法を根本的に変更します。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) では、PDF構造におけるテキストオブジェクトと画像オブジェクトの区別が明確に定義されています。
ラスタライズされたテキストは、テキスト文字がネイティブのベクター表現からピクセルベースのグラフィックスに変換された結果です。標準的なPDFでは、テキストはフォント定義と文字コードを参照するテキストオブジェクトとして保存され、解像度に依存せず選択可能な状態を保ちます。しかし、ラスタライズされたテキストは画像XObjectとして存在します。つまり、実際のテキストデータではなく、テキストの「写真」のような形で保存されます。
これは、各文字が数学的に定義され、選択、コピー、検索が可能で、支援技術による読み取りができるベクターテキストとは大きく異なります。テキストがラスタライズされると、PDFには基礎となる文字情報が含まれず、テキストの視覚的表現のみが残るため、これらの機能が失われます。文書は実際のテキストを含むものと視覚的には似ているかもしれませんが、機能的には画像の集合体として動作します。
ラスタライズされたテキストは、OCR(光学文字認識)を使用せずに紙文書をスキャンした場合、特定のセキュリティ対策を適用した場合、互換性のないフォント埋め込み設定を使用した場合、またはテキストレイヤーを適切に保持しないアプリケーションからエクスポートした場合に一般的に発生します。
PDF生成、操作、またはアクセシビリティ準拠に取り組む開発者にとって、ラスタライズされたテキストを理解することは重要です。なぜなら、これが重大な機能制限を生み出すためです。ラスタライズされたテキストを含む文書は、PDF/UA(Universal Accessibility)などのアクセシビリティ標準に適合しません。スクリーンリーダーは、適切な代替テキスト説明がない限り、画像ベースのテキストを解釈できないからです ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。
実用的な開発の観点から、ラスタライズされたテキストはユーザーが以下のことを行うことを妨げます:
- テキストコンテンツの選択とコピー
- 文書内の検索
- テキスト読み上げやスクリーンリーダー技術の使用
- 処理のためのプログラムによるデータ抽出
- 異なる画面サイズへのコンテンツのリフロー
さらに、ラスタライズされたテキストはファイルサイズを大幅に増加させます。ビットマップ画像は文字コードやフォント参照よりも多くのストレージスペースを必要とするためです。PDFを提供するWebアプリケーションでは、これはロード時間の延長と帯域幅コストの増加につながります。PDF生成または変換ワークフローを実装する際、開発者はコンテンツを誤ってラスタライズするのではなく、テキストを選択可能なテキストオブジェクトとして保持するようにコードを確保する必要があります。
適切に構造化されたPDFでは、テキストはフォント辞書を参照するテキスト演算子とテキスト表示演算子を使用して保存されます。PDFは、埋め込まれた、または参照されたフォント内のグリフにマップされる文字コードを維持し、テキストのセマンティックな意味を保持します ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。
テキストがラスタライズされると、この構造は画像XObjectに置き換えられます。レンダリングプロセスは、各文字を特定の解像度(通常はDPI—dots per inchで測定)でピクセルに変換します。これらのピクセルは、JPEGやJPEG2000などの圧縮アルゴリズムを使用する可能性のある画像ストリームとしてPDFに保存されます。PDFビューアは、フォントデータからテキストをレンダリングするのではなく、これらの画像を表示します。
文書階層とコンテンツ関係を定義する論理構造ツリーを使用するTagged PDF文書の場合、ラスタライズされたテキストは特定の課題を生み出します。テキストが構造ツリー内の適切な代替テキスト(Alt text)またはActualTextエントリなしでラスタライズされた場合、論理的な文書構造が崩れ、支援技術がコンテンツにアクセスできなくなります。
開発者は、PDFコンテンツストリームを分析することで、プログラムによってラスタライズされたテキストを検出できます。テキストオブジェクトは特定の演算子(テキストブロックのBT/ET、テキスト表示のTj/TJ)によって識別され、画像はXObject参照を持つDo演算子を使用して配置されます。テキストを含んでいるように見えるが、画像XObjectのみを含み、テキスト演算子を含まないPDFは、ラスタライズされたテキストを持つ可能性が高いです。
- ベクターテキスト(Vector text) – 解像度に依存せず選択可能な状態を保つ、文字コードとフォント参照として保存されたテキスト
- テキスト抽出(Text extraction) – インデックス化、検索、または処理のためにPDFテキストオブジェクトから文字データを取得するプロセス
- OCR(Optical Character Recognition / 光学文字認識) – テキストの画像を分析し、それを選択可能なテキストデータに変換する技術
- Tagged PDF – アクセシビリティのためにコンテンツ関係と読み順を定義する論理構造を持つPDF
- 画像XObject(Image XObject) – 写真やスキャンされたコンテンツなどのラスター画像データを含むPDFオブジェクトタイプ
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
