実際のテキスト(ActualText)
ActualTextは、PDFの構造属性の一つであり、PDF内で視覚的に表示されるコンテンツに対して、支援技術やテキスト抽出ツールが正しく解釈できない場合に代替テキストを提供します。
ActualTextは、PDFの構造属性の一つであり、PDF内で視覚的に表示されるコンテンツに対して、支援技術やテキスト抽出ツールが正しく解釈できない場合に代替テキストを提供します。PDFに記号、装飾文字、合字など、読み取り可能なUnicodeテキストに直接マッピングできない視覚的表現が含まれている場合、ActualTextによってスクリーンリーダーなどの支援技術が意図されたコンテンツを正確に読み上げることができます ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。この属性は、PDF/UAなどの規格に準拠したアクセシブルなPDFを作成するために不可欠です ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。
ActualTextは、PDFの構造要素辞書内の標準エントリであり、視覚的なコンテンツがその意味的内容と異なる場合に、ユーザーに提示されるべき人間が読めるテキストを表すUnicode文字列を格納します。画像や非テキストコンテンツを説明する代替テキスト(Altテキスト)とは異なり、ActualTextはテキストのような視覚的コンテンツを正しいテキスト表現に置き換えます ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。
一般的な使用例:
- 合字:「fi」が単一のグリフとして表示される場合、ActualTextが2つの独立した文字として「fi」を提供
- 装飾フォントや記号フォント:特殊な記号やアイコンフォントを使用してテキストを表示する場合
- 数式記法:視覚的な数式にテキスト相当物が必要な場合
- 様式化されたテキスト:テキストがグラフィックスとしてレンダリングされる場合や、標準的なUnicode値に対応しないカスタム文字マッピングを使用する場合
ActualTextとAltテキストの違いは、ActualTextがテキスト様コンテンツを適切なテキストで置き換えるのに対し、Altテキストは画像やグラフィックスなどの非テキスト要素を説明する点にあります。
PDF生成システムやドキュメント処理ワークフローを構築する開発者にとって、ActualTextを正しく実装することは、以下の理由から重要です:
アクセシビリティ準拠:PDF/UAは、すべてのテキストコンテンツが支援技術で利用可能であることを要求しています。ActualTextがないと、スクリーンリーダーが意味不明な音声を出力したり、コンテンツを完全にスキップしたり、障害のあるユーザーに文書の意味を誤って伝えたりする可能性があります ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。
コンテンツ抽出の正確性:検索インデクサー、ドキュメント管理システム、データ処理ツールなど、PDFからテキストを抽出するアプリケーションは、視覚的表現が意味的内容と異なる場合、正しいテキストコンテンツを取得するためにActualTextに依存します。
法的および規制要件:多くの法域では、デジタル文書がアクセシビリティ基準を満たすことを要求しています。ActualTextが必要な箇所で実装されていない場合、Section 508、ADA、欧州アクセシビリティ法などの規制に違反する可能性があります。
ユーザーエクスペリエンス:テキスト読み上げ機能、翻訳ツール、テキスト検索を使用する健常者のユーザーでさえ、正確なコンテンツ表現のためにActualTextに依存しています。
ActualTextは、Tagged PDFの論理構造ツリー内にある、PDF構造要素の属性辞書のオプションエントリとして実装されます ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。存在する場合、アクセシビリティおよび抽出目的で視覚的なテキストコンテンツよりも優先されます。
技術的な実装:
ActualTextエントリには、意図されたテキストを表すUnicode文字列が含まれます。支援技術やテキスト抽出ツールがActualTextを持つ構造要素に遭遇すると、コンテンツストリームからテキストを抽出しようとするのではなく、この値を使用する必要があります。
/P << /ActualText (Hello World) >>
この例では、ページ上に視覚的に何が表示されていても、支援技術はユーザーに「Hello World」を提示します。
主な考慮事項:
- ActualTextは、視覚的コンテンツとその意味的内容が異なる場合にのみ使用すべきです
- Unicode文字列は意図されたテキストを正確に表現する必要があります
- 空のActualText値を使用して、装飾的なコンテンツを支援技術から隠すことができます
- ActualTextは、それが添付されている構造要素全体に適用されます
- ActualTextの過度な使用は文書構造の不備を示す可能性があるため、適切なUnicodeテキストを直接使用できる場合は避けるべきです
処理順序:テキストをレンダリングまたは抽出する際、PDFプロセッサは最初にActualTextをチェックします。存在する場合はそれが使用され、存在しない場合は、プロセッサはドキュメントの文字エンコーディングとToUnicodeマッピングを使用してコンテンツストリームからテキストを抽出しようとします。
- Alt text(代替テキスト) – 直接読み取ることができない画像や非テキストコンテンツの説明テキスト
- Tagged PDF – アクセシビリティのための論理的な文書階層と意味情報を含むPDF構造
- Structure element(構造要素) – 文書コンテンツを意味的に表すPDF論理構造ツリー内のノード
- ToUnicodeマッピング – テキスト抽出のために文字コードをUnicode値にマッピングするメカニズム
- PDF/UA – 支援技術との互換性を保証するアクセシブルなPDF文書のISO標準
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
