タグセット(Tag set)
タグセットとは、特定の名前空間内で正式に定義された標準タグの集合であり、PDFファイルにおける文書構造要素に一貫したセマンティック(意味論的)な意味を確立します。
タグセットとは、特定の名前空間内で正式に定義された標準タグの集合であり、PDFファイルにおける文書構造要素に一貫したセマンティック(意味論的)な意味を確立します。PDF仕様では、標準構造名前空間などの標準タグセットが定義されており、段落を表す<P>、見出しを表す<H1>、表を表す<Table>などのタグが含まれています
(
Citation: N.A., 2020
(N.A.).
(2020).
Document management — Portable document format — Part 2: PDF 2.0
.
International Organization for Standardization
Retrieved from
https://www.iso.org/standard/75839.html
)
。タグセットにより、支援技術やPDFプロセッサーが異なるPDF文書間で文書構造を確実に解釈できるようになります
(
Citation: PDF Association, 2023
PDF Association(2023). Retrieved from
https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
)
。
タグセットとは、PDFの論理構造ツリー内で共通の名前空間と目的を共有する構造タグの定義された語彙です。最も広く使用されているタグセットは、PDF仕様で定義されている標準構造名前空間であり、グループ化要素(<Sect>や<Art>など)、ブロックレベル要素(<P>や<H1>~<H6>など)、インラインレベル要素(<Span>や<Link>など)、イラストレーション要素(<Figure>や<Formula>など)に分類された約30の標準構造タイプを提供します
(
Citation: N.A., 2020
(N.A.).
(2020).
Document management — Portable document format — Part 2: PDF 2.0
.
International Organization for Standardization
Retrieved from
https://www.iso.org/standard/75839.html
)
。
タグセットは、任意のカスタムタグ付けとは異なり、予測可能なセマンティック規約を確立します。PDFでは、ロールマッピングを通じて文書がカスタム構造タイプを定義することができますが、標準タグセットは、準拠リーダーや支援技術が追加のマッピングなしで理解できる基本的なセマンティクスを提供します ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。この標準化は、PDF/UA(Universal Accessibility)準拠において特に重要であり、標準構造タグの一貫した使用により、スクリーンリーダーやその他の支援技術が文書コンテンツを適切に解釈できるようになります ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。
名前空間メカニズムにより、PDF文書内で異なるタグセットが共存できますが、実際には、ほとんどのアクセシブルなPDFは主に標準構造名前空間に依存しています。専門的なアプリケーション向けにカスタム名前空間を定義することもできますが、アクセシビリティの目的で標準構造タイプへの明示的なロールマッピングが必要になります。
PDF文書を作成または処理する開発者にとって、タグセットの理解は適切な文書アクセシビリティと構造を実装するために不可欠です。標準タグセットを正しく使用することで、一貫したセマンティックタグ付けに依存して視覚的文書をアクセシブルな形式に変換するスクリーンリーダーなどの支援技術でPDFが確実に動作するようになります ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。これは単なるベストプラクティスではなく、アクセシビリティ規制のある多くの管轄区域では法的要件となっています。
タグセットは、自動化されたPDF処理ワークフローの基盤を提供します。文書が標準構造タグを一貫して使用している場合、開発者はコンテンツ抽出、文書変換、アクセシビリティ修復のための信頼性の高いツールを構築できます。標準タグセットへの準拠がない場合、各文書は独自の解析課題となり、開発および保守コストが大幅に増加します。
大規模な文書コレクションを管理する組織にとって、標準タグセットは一貫したコンテンツ管理と検索を可能にします。検索エンジンや文書管理システムは、セマンティック構造タグを活用してコンテンツの発見を改善し、メタデータを抽出し、強化されたユーザーエクスペリエンスを提供できます。標準タグセットの予測可能性は、品質保証プロセスも促進し、自動検証ツールが文書構造のコンプライアンスを確認できるようにします。
タグセットは、PDF構造仕様で定義されている名前空間とロールマッピングのメカニズムを通じて機能します。PDF文書に構造ツリーが含まれている場合、各構造要素は特定の名前空間に属する構造タイプ(タグ)を参照します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。デフォルトの名前空間は標準構造名前空間であり、明示的な宣言は必要ありません。
標準構造名前空間は、タグを4つの主要カテゴリに分類しています。グループ化要素(<Document>、<Part>、<Sect>、<Div>、<Art>)は、高レベルの文書編成を提供します。ブロックレベル構造要素(<P>、<H1>~<H6>、リスト用の<L>、<Table>)は、コンテンツブロックを表します。インラインレベル構造要素(<Span>、<Quote>、<Link>)は、ブロック内のテキストランをマークします。イラストレーション要素(<Figure>、<Formula>、<Form>)は、非テキストコンテンツを識別します
(
Citation: PDF Association, 2023
PDF Association(2023). Retrieved from
https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
)
。
開発者がカスタムタグを使用する場合、カスタム構造タイプを標準タグに接続するロールマッピングを確立する必要があります。このマッピングは、構造ツリールート内のロールマップ辞書で定義されます。たとえば、カスタムの<ChapterTitle>タグを標準の<H1>タグにマッピングすることで、支援技術がカスタムタグを正しく解釈できるようになります。このマッピングメカニズムは、文書固有の語彙を許可しながらセマンティックな意味を保持します。
構造ツリー自体は階層を形成し、各構造要素には属性、マークされたコンテンツへの参照、および子要素が含まれます。タグセットは、どのタグが有効か、その期待される関係、およびそのセマンティックな意味を定義しますが、構造ツリーはこれらの要素を文書の完全な論理構造に組み立てます。
- Structure tree(構造ツリー) – 1つ以上のタグセットのタグを使用したPDFの論理構造の階層表現
- Role mapping(ロールマッピング) – カスタム構造タイプを標準構造名前空間の標準タグに接続するメカニズム
- Standard structure types(標準構造タイプ) – 見出し、段落、表など、標準構造名前空間内で定義された特定のタグ
- Tagged PDF – 定義されたタグセットのタグを使用して論理的な文書構造を表す構造ツリーを含むPDF文書
- PDF/UA – 適切なタグセットからの標準構造タグの適切な使用を要求する、アクセシブルなPDF文書のISO標準
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
