Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

構造要素(タグ)

構造要素(Structure element)は、PDF の論理構造ツリーにおけるノードであり、文書内のコンテンツの意味的な意味と役割を記述します。

キーワード: structure element, tag, structelem, 構造要素(タグ)

概要

構造要素(Structure element)は、PDF の論理構造ツリーにおけるノードであり、文書内のコンテンツの意味的な意味と役割を記述します ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。各構造要素は、見出し、段落、表、リストなど、含まれるコンテンツの種類を識別するコンテナとして機能します。これは単に視覚的な表現を示すのではなく、コンテンツの意味を表します。この意味的なタグ付けは、支援技術が適切に解釈できるアクセシブルな PDF を作成するための基礎となります ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html )

定義

構造要素(しばしば「StructElem」と略されます)は、PDF 構造階層内のエントリであり、コンテンツをラップして意味的な役割タイプを割り当てます。ページ上に視覚的要素をレンダリングするコンテンツストリーム演算子とは異なり、構造要素は文書の構成と意味を記述する独立した論理ツリーに存在します ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。各構造要素は、その役割を識別する構造タイプ(H1、P、Table、Figure など)を持ち、子要素として他の構造要素を含むか、PDF ページ上の実際のコンテンツを指すマークされたコンテンツ参照を含むことができます。構造要素には、言語、代替テキスト、表のヘッダーなど、追加の意味情報を提供する属性も含まれる場合があります。視覚的要素との重要な違いは、構造要素が文書の論理構造におけるコンテンツの意味を記述するものであり、単にレンダリング時の見た目を示すものではないという点です。

重要性

PDF 生成または処理ツールを構築する開発者にとって、構造要素は PDF/UA 規格に準拠し、法的なアクセシビリティ要件を満たすアクセシブルな文書を作成するために不可欠です ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。適切な構造要素がない場合、スクリーンリーダーなどの支援技術は、障害を持つユーザーに文書のコンテンツを正確に伝えることができません。その場合、ページ上に視覚的に表示される順序でしかコンテンツを読み上げることができず、これは論理的な読み上げ順序と一致しない可能性があります。構造要素により、開発者は次のことを保証できます:PDF がアクセシビリティツールで正しく動作すること、適切な読み上げ順序とナビゲーションをサポートすること、異なる画面サイズに対応したコンテンツのリフローを可能にすること、コンテンツの抽出と文書解析を容易にすることです。PDF アクセシビリティ機能を実装する際、開発者はすべての意味的コンテンツタイプに対して適切な構造要素を作成し、それらをページ上の可視コンテンツに正しくマッピングする必要があります。

仕組み

構造要素は、文書カタログの StructTreeRoot エントリを通じてアクセスされる構造ツリールートから始まる階層ツリー構造で組織されています。各構造要素辞書には、その構造タイプ(/H1、/P、/TD など)を指定する必須の /S キーが含まれ、通常は親要素を指す /P キーが含まれます ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。要素の子要素は、他の構造要素(リスト項目を含むリストのようなネストされた構造の場合)またはマークされたコンテンツ参照(ページ上の実際のコンテンツの場合)になります。構造要素を可視コンテンツに接続するために、開発者はコンテンツストリーム内でマークされたコンテンツシーケンスを使用します。これは MCID(marked-content identifier:マークされたコンテンツ識別子)によって識別され、構造要素は /K エントリを通じてこれを参照します。例えば、段落構造要素はページ 3 の MCID 5 を参照し、意味的な「段落」の指定をその段落を描画する実際のテキスト演算子にリンクします。構造要素には、代替テキスト説明のための /Alt エントリ、置換テキストのための /ActualText、言語指定のための /Lang も含めることができ、PDF を真にアクセシブルにする豊かな意味レイヤーを提供します ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ )

関連用語

  • Tagged PDF – すべてのコンテンツを記述する構造要素を含む完全な構造ツリーを持つ PDF 文書
  • Structure tree(構造ツリー) – PDF の論理構造を定義する構造要素の階層的な組織
  • Marked content(マークされたコンテンツ) – PDF コンテンツストリーム内のシーケンスで、構造要素によってタグ付けされ参照されるもの
  • Structure type(構造タイプ) – 構造要素が表すコンテンツの種類を定義する役割識別子(H1、P、Table など)
  • PDF/UA – 構造要素の適切な使用を要求するアクセシブルな PDF のための ISO 規格

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html