Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

タグ付きPDF(Tagged PDF)

Tagged PDF(タグ付きPDF)は、文書のコンテンツ階層と意味を記述するセマンティックタグを含む論理構造ツリーを持つPDF文書です。

キーワード: tagged pdf, structured pdf, semantic pdf, タグ付きPDF

概要

Tagged PDF(タグ付きPDF)は、文書のコンテンツ階層と意味を記述するセマンティックタグを含む論理構造ツリーを持つPDF文書です ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。これらの構造タグにより、支援技術が障害を持つユーザーに対してPDFコンテンツを適切に解釈して提示できるようになり、異なる画面サイズで表示する際にコンテンツが正しくリフローされます ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。Tagged PDFはアクセシブルなPDF文書の基盤となり、PDF/UA準拠には必須です。

定義

Tagged PDFとは、構造ツリー(文書の論理的な読み順とコンテンツ関係の階層表現)を含むPDFファイルです ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。この構造ツリーは、標準化されたタグ(見出し、段落、リスト、表、図など)を使用してコンテンツ要素にセマンティックな意味を付与します。これはHTMLがタグを使用してWebページを構造化する方法と似ています。

タグなしPDFが視覚的なコンテンツ表現(生のテキスト、グラフィックス、書式設定命令)のみを含むのに対し、Tagged PDFは文書構造を視覚的な表現とは別に維持します。この分離により、同じコンテンツを複数の方法(画面上での視覚的表示、スクリーンリーダーによる音声出力、モバイルデバイス向けのリフロー)で提示しながら、作成者の意図した意味と読み順を保持できます。

タグ付けプロセスは、コンテンツの役割(見出しか本文テキストか)、コンテンツの関係(どのキャプションがどの画像に属するか)、代替説明(画像のテキスト相当物)を識別するメタデータを追加します。タグ付けによりファイルサイズはわずかに増加しますが、PDFの視覚的外観は変わりません。

重要性

PDFアクセシビリティに取り組む開発者にとって、Tagged PDFはSection 508、ADA、EN 301 549などのアクセシビリティ標準への法的準拠に不可欠です。これらの標準は、デジタル文書が障害を持つ人々にアクセス可能であることを義務付けています。Tagged PDFのプログラムによる作成または検証は、文書管理システム、政府アプリケーション、エンタープライズコンテンツ公開ワークフローにおける一般的な要件です。

Tagged PDFにより、スクリーンリーダー、点字ディスプレイ、音声読み上げシステムなどの支援技術が、視覚情報にアクセスできないユーザーに対して意味のある方法でコンテンツを提示できます。適切なタグ付けがない場合、スクリーンリーダーは間違った順序でコンテンツを読み上げたり、重要な情報をスキップしたり、文書構造を伝達できなかったりする可能性があり、盲目または視覚障害のあるユーザーにとってコンテンツが使用不可能になります。

技術統合の観点から、Tagged PDFはタグなしコンテンツよりも信頼性の高い方法で抽出、変換、再利用できる構造化データを提供します。これは、検索インデックス用のコンテンツ抽出、自動文書変換、レスポンシブコンテンツ配信、PDFアーカイブからのデータマイニングなどの機能を実装する際に重要です。

仕組み

Tagged PDFは、PDF文書内にコンテンツストリームと並行するが視覚的レイアウトとは独立して存在する構造ツリーを埋め込むことで機能します ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。この構造ツリーは、親子階層で組織された構造要素で構成され、ルートノードは通常Documentエレメントです。

各構造要素には、その役割を識別する構造タイプ(タグ)があります:

  • コンテナタグ: Document、Part、Sect(セクション)、Div(区分)
  • 見出しタグ: 見出しレベルのH1からH6
  • ブロックレベルタグ: P(段落)、L(リスト)、Table、Figure
  • インラインレベルタグ: Span、Link、Quote

構造要素は、MCIDMarked Content Identifier)値で識別されるマークドコンテンツシーケンスを通じて、PDF内の実際のコンテンツを参照します。これにより、論理構造と視覚的コンテンツストリーム間のマッピングが作成されます。画像などの非テキストコンテンツの場合、構造要素にはAlt属性として保存された代替テキスト説明が含まれます。

PDFには、カスタムタグを定義したり、標準構造タイプをそれらのセマンティック等価物にマッピングしたりするロールマップも含まれており、異なるPDFリーダー間で一貫した解釈を保証します。構造要素の追加属性により、言語、バウンディングボックス、表のヘッダー、リスト番号スタイル、支援技術がコンテンツを適切に提示するために必要なその他のセマンティック情報を指定できます。

スクリーンリーダーがTagged PDFを開くと、生のコンテンツストリームを解釈しようとするのではなく、構造ツリーを読み取り、タグ階層で定義された論理的な読み順に従います。リフロー機能を持つPDFリーダーは、構造ツリーを使用して小さな画面用にコンテンツを再編成しながら、文書の意味を保持します。

関連用語

  • PDF/UA – Tagged PDF構造を必要とする、普遍的にアクセス可能なPDF文書のISO標準
  • Logical Structure(論理構造) – 読み順とセマンティックな関係を定義するコンテンツ要素の階層構造
  • Marked Content(マークドコンテンツ) – 視覚的要素を構造ツリーエントリにリンクするPDFコンテンツストリーム内のタグ付きセクション
  • Alternative Text(代替テキスト) – 構造要素属性に保存された、画像と非テキストコンテンツのテキスト説明
  • Structure Type(構造タイプ) – 文書階層における要素の役割を識別するセマンティックタグ名

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html