Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

構造階層(Structure hierarchy)

構造階層は、タグツリーとも呼ばれ、Tagged PDF文書内のコンテンツのセマンティックな意味と論理的な読み上げ順序を定義する構造要素の階層的な組織です。

キーワード: structure hierarchy, tag tree, 構造階層

概要

構造階層は、タグツリーとも呼ばれ、Tagged PDF文書内のコンテンツのセマンティックな意味と論理的な読み上げ順序を定義する構造要素の階層的な組織です ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。このツリーベースの構造により、支援技術は障害を持つユーザーに対して文書コンテンツを意味のある方法で提示できます。構造階層はPDFアクセシビリティの基盤を形成し、視覚的なレイアウトを論理的な文書構造にマッピングします ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html )

定義

構造階層は、文書のStructTreeRootエントリをルートとするツリーデータ構造であり、PDF内のすべてのタグ付きコンテンツを整理します。このツリーの各ノードは、特定のセマンティックロール(見出し、段落、リスト、表など)を持つ構造要素を表し、含まれるコンテンツの目的を記述します ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。画面上でのコンテンツの表示方法を表す視覚的なページレイアウトとは異なり、構造階層は視覚的な表現とは独立して論理的な構成と読み上げ順序を定義します。

階層は親子関係で構成され、構造要素は他の構造要素またはマーク付きコンテンツを含むことができます。例えば、文書構造要素は章要素を含み、章要素はセクション要素を含み、セクション要素はさらに段落要素と見出し要素を含む、といった構造になります。このネスト構造は、文書の情報アーキテクチャの論理的な構成を反映します。

重要性

PDF生成または処理システムを実装する開発者にとって、構造階層はPDF/UA標準およびアクセシビリティ規制に準拠したアクセシブルな文書を作成するために不可欠です。適切に構築された構造階層がない場合、スクリーンリーダーなどの支援技術は視覚障害を持つユーザーに対してコンテンツを確実に抽出し提示することができず、これらのユーザーにとって文書は事実上使用不可能になります。

構造階層は、モバイルデバイスでのコンテンツリフロー、データ処理のための自動コンテンツ抽出、検索機能の向上など、高度な文書機能も実現します。開発者が構造階層を適切に実装することで、PDFがさまざまな表示コンテキストで機能し、デジタルアクセシビリティ法が存在する管轄区域での法的なアクセシビリティ要件を満たすことが保証されます。

仕組み

構造階層は、PDFの文書カタログ内のStructTreeRootディクショナリから始まり、これがツリーのルートノードとして機能します。このルートから、構造要素が階層的に分岐し、それぞれが構造要素ディクショナリによって定義されます。このディクショナリは、タイプ(ロール)、親、子、および関連するコンテンツを指定します。

各構造要素にはStructTypeエントリが含まれており、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義された標準構造タイプを使用してセマンティックロールを識別します。例えば、Document、Part、Sect(セクション)、H1-H6(見出し)、P(段落)、L(リスト)、Table、Figureなどです。これらの標準タイプは、異なるPDF文書やアプリケーション間で一貫したセマンティックな意味を提供します。

コンテンツは、PDFページ上のマーク付きコンテンツシーケンスを通じて構造階層に接続されます。これらのシーケンスは構造要素識別子(MCID)でタグ付けされ、視覚的なコンテンツを構造ツリー内の対応するノードにリンクします。この間接参照により、同じ構造階層が複数のページにわたるコンテンツを参照しながら、論理的な読み上げ順序を維持できます。

構造階層は、表のヘッダー、リストの番号付けスタイル、言語仕様、アクセシビリティプロパティなど、追加のセマンティック情報を提供する属性もサポートします。ロールマッピングにより、カスタム構造タイプを標準タイプにマッピングできるため、支援技術との互換性を維持しながらドメイン固有のタグ付けが可能になります ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ )

関連用語

  • 構造要素(Structure element)– 特定のセマンティックコンポーネントを表す構造階層内の個々のノード
  • Tagged PDF – アクセシビリティのための構造階層とタグ付きコンテンツを含むPDF文書
  • マーク付きコンテンツ(Marked content)– タグ付けされ構造階層にリンクされたPDFページ上のコンテンツシーケンス
  • ロールマッピング(Role mapping)– カスタム構造タイプを標準構造タイプにマッピングするメカニズム
  • 読み上げ順序(Reading order)– 構造階層によって定義される、コンテンツが処理されるべき論理的な順序

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html