タグツリー(Tag tree)
タグツリーは、PDF文書内の階層構造であり、構造要素のツリーを通じてコンテンツの論理的な読み順と意味論的な意味を表現します。
タグツリーは、PDF文書内の階層構造であり、構造要素のツリーを通じてコンテンツの論理的な読み順と意味論的な意味を表現します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。これはTagged PDF文書の基盤を形成し、ページ上のすべての実際のコンテンツを支援技術が解釈できる論理構造にマッピングします。タグツリーにより、スクリーンリーダーやその他のアクセシビリティツールは、ページ上でコンテンツがどのように視覚的に表示されているかに関係なく、文書コンテンツを意味のある順序で提示できるようになります ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。
タグツリーは、PDF内に埋め込まれたツリーベースのデータ構造であり、単一のルート要素から始まり、見出し、段落、リスト、表、図などの文書の意味論的な構成要素を表すネストされた構造要素に分岐します ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。コンテンツがページ上にどのように表示されるかを決定する視覚的なコンテンツストリームとは異なり、タグツリーは視覚的な表現から独立した論理的な文書構造を定義します。ツリー内の各ノードは、子要素またはPDF内の実際のコンテンツオブジェクトを指すマークされたコンテンツ参照を含むことができる構造要素に対応します。タグツリーは、PDFの構造階層に格納され、文書カタログ内のStructTreeRootエントリから始まり、標準化された構造タイプを使用して文書間で一貫して意味論的な意味を伝達します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。
PDF文書を作成または処理する開発者にとって、タグツリーは、すべての意味のあるコンテンツにタグを付けることを義務付けるPDF/UAなどの標準でアクセシビリティ準拠を確保するために不可欠です ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。適切に構築されたタグツリーにより、支援技術は文書を論理的にナビゲートでき、異なる画面サイズに対応したコンテンツのリフローが可能になり、再利用やインデックス作成のためのコンテンツ抽出がサポートされます。有効なタグツリーがない場合、視覚障害のあるユーザーは文書コンテンツに効果的にアクセスできず、自動化されたシステムは正しい読み順で情報を確実に抽出できません。PDFライブラリを使用する開発者は、プログラムによってアクセシブルな文書を作成したり、既存のTagged PDFを検証したり、適切なタグ付けが欠けている文書を修復したりするために、タグツリー構造を理解する必要があります。
タグツリーは、StructTreeRootがトップレベルのコンテナとして機能し、文書コンポーネントを表す構造要素に接続する親子関係を通じて動作します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。各構造要素は、意味論的な意味を伝えるために標準またはカスタムの構造タイプ(段落の「P」、第1レベル見出しの「H1」、表データの「Table」など)を使用します。構造要素は、ネストされた階層を作成するために他の構造要素を含むことができます。たとえば、「Table」要素は「TR」(表の行)要素を含み、それが「TD」(表のデータ)要素を含みます。リーフレベルでは、構造要素はMCID(Marked Content Identifier)を通じてPDFコンテンツストリーム内のマークされたコンテンツシーケンスを参照し、論理構造と実際にレンダリングされるコンテンツとの間の接続を確立します。タグツリーは読み順も定義します。ツリーの深さ優先探索により、支援技術がユーザーにコンテンツを提示する順序が決定されます。構造要素の追加属性は、言語、画像の代替テキスト、略語の実際のテキスト、幾何学的関係のためのバウンディングボックス情報などのメタデータを提供します ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。
- 構造要素(Structure element)– 意味論的な構成要素を表すタグツリー内の個々のノード
- マークされたコンテンツ(Marked content)– MCIDを通じてタグツリーによって参照されるPDFコンテンツストリーム内のコンテンツ
- StructTreeRoot – 文書カタログ内のタグツリー階層のルートディクショナリ
- ロールマッピング(Role mapping)– カスタム構造タイプを標準タイプにマッピングするメカニズム
- PDF/UA – ユニバーサルアクセスのための適切なタグツリー実装を要求するアクセシビリティ標準
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
