作者の意図(Author’s intent)
Author's intent(作者の意図)とは、文書作成者が支援技術やその他のソフトウェアに対して、PDFのタグやプロパティから抽出させたい意味的な内容や構造的な関係性を指します。
Author’s intent(作者の意図)とは、文書作成者が支援技術やその他のソフトウェアに対して、PDFのタグやプロパティから抽出させたい意味的な内容や構造的な関係性を指します。Tagged PDF文書では、作者の意図は論理構造ツリーを通じて表現され、構造要素と属性を使用して視覚的な表現を超えた意味を伝えます ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。この意図を適切に捉えてエンコードすることは、PDF/UA ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの規格に準拠したアクセシブルな文書を作成するための基本となります。
Author’s intentとは、コンテンツが視覚的にどのように見えるかではなく、どのように解釈され、ナビゲートされるべきかを定義する意味的な情報です。晴眼者のユーザーであれば、ページ上部の大きく太字のテキストが見出しであると推測できますが、支援技術がこの構造的関係を理解するには明示的なタグ付けが必要です。作者の意図は、構造要素(<H1>、<P>、<Table>など)とその属性を通じて伝達され、これによりソフトウェアはコンテンツ要素の役割と関係性を認識できます
(
Citation: PDF Association, 2023
PDF Association(2023). Retrieved from
https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
)
。
この概念は視覚的な書式設定とは異なります。2つのコンテンツが画面上では同じように見えても、まったく異なる意味的な意味を持つことがあります。例えば、上付き文字は脚注参照、数学的な指数、または単なる装飾的なテキストを表す可能性があります。作者の意図は、どの解釈が正しいかを明確にします。同様に、純粋に視覚的な配置のために使用される表形式のレイアウトと、実際のデータテーブルは本質的に異なるものであり、構造ツリーはこの区別を反映する必要があります。
PDF生成または操作を行う開発者にとって、作者の意図を正しく実装することは、法的コンプライアンス、アクセシビリティ、相互運用性のために不可欠です。意味的な構造を適切にエンコードしていない文書は、Section 508や欧州アクセシビリティ法などのアクセシビリティ規制に違反する可能性があり、組織を法的リスクにさらします。
技術的な観点から見ると、作者の意図はスクリーンリーダーのサポートを超えた重要な機能を実現します。検索やインデックス作成のアルゴリズムは構造を使用して主要なコンテンツを識別し、コンテンツのリフローは要素の関係性の理解に依存し、再利用のためのコンテンツ抽出には正確な意味的情報が必要です。作者の意図が不適切にエンコードされている場合、ユーザーはナビゲーションの失敗、不正確な読み上げ順序、文書を使用不可能にする文脈の欠落を経験します。
開発者は、視覚的に正しいPDFを作成するだけでは不十分であることを理解する必要があります。PDFが真にアクセシブルで機能的であるためには、基礎となるタグ構造が文書の意味的な構成を正確に表現していなければなりません。
作者の意図は構造ツリーを通じて実装されます。構造ツリーとは、PDFの構造階層で定義される文書の論理的な構成の階層表現です ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。構造ツリーは構造要素で構成され、PDF仕様の構造要素タイプから標準化されたタグを使用してコンテンツに意味的な役割をマークします。
各構造要素には、追加の意味的情報を提供する属性を含めることができます:
- Role mapping(役割マッピング): カスタム構造タイプを標準タイプにマッピングし、意味的な明確性を維持しながら柔軟性を提供します
- Attributes(属性):
BBox(バウンディングボックス)、Lang(言語)、またはテーブル固有の属性など、要素の目的を明確にするプロパティ - Alternative descriptions(代替説明): 非テキストコンテンツのテキスト代替で、意味のある解釈を保証します
- Actual text(実際のテキスト): 表示される文字が意図されたコンテンツを表していない場合の置換テキスト
構造ツリーは、ページコンテンツストリーム内のマークされたコンテンツシーケンスを通じてコンテンツに接続し、MCID(Marked Content Identifier)値を使用します。この連携により、論理構造は表現と意味の分離を維持しながら、特定の視覚的コンテンツを参照できます。
開発者は、構造ツリーが文書の構成を正確に反映していることを確認する必要があります。これには、適切なネスト(セクション内の段落、テーブル行内のセル)、コンテンツの役割に対する正しい要素タイプ、適切な属性が含まれます。検証ツールは技術的な実装がPDF/UA要件に一致しているかどうかをチェックしますが、構造が作者の意図した意味を真に表現しているかを検証するには、人間の判断が必要になることがよくあります ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。
- Tagged PDF – 文書の論理的な構成をエンコードする構造ツリーを含むPDF
- Structure tree(構造ツリー) – 文書の意味的な構造の階層表現
- Structure element(構造要素) – 構造ツリー内の個々のノードで、意味的な役割をもってコンテンツをマークする
- PDF/UA – PDF文書におけるユニバーサルアクセシビリティのためのISO規格
- Marked content(マークされたコンテンツ) – 視覚要素を構造ツリーにリンクするタグでマークされたコンテンツストリーム
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
