Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

PDStructureElement

PDStructureElementは、Apache PDFBoxライブラリにおけるJavaクラスで、PDF文書内の構造要素を扱うための高レベルAPIを提供します。

キーワード: pdstructureelement, PDStructureElement

概要

PDStructureElementは、Apache PDFBoxライブラリにおけるJavaクラスで、PDF文書内の構造要素を扱うための高レベルAPIを提供します。構造要素は、タグ付きPDF文書の構成要素であり、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で規定されているように、コンテンツの論理構造と読み上げ順序を定義します。このクラスにより、開発者はPDF文書をアクセシブルかつ機械可読にする構造階層を、プログラムによって読み取り、作成、修正することができます ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html )

定義

PDStructureElementは、Apache PDFBoxのPDModelパッケージの一部であり、PDF文書コンポーネントのオブジェクト指向抽象化を提供します。これは、PDF構造ツリーにおける個々のノードを表現します。構造ツリーとは、文書コンテンツの論理的な構成を記述する階層的表現です。低レベルのPDFディクショナリ(COSDictionaryオブジェクト)とは異なり、PDStructureElementは、要素タイプ(段落、見出し、表など)、親子関係、代替テキスト、関連するコンテンツマーカーといった構造要素プロパティにアクセスするための、開発者にとって使いやすいメソッドを提供します。

各PDStructureElementは、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されている構造要素ディクショナリに対応し、構造タイプ(/Sエントリ)、ロールマッピング情報、PDFページ上の実際のコンテンツへの参照などの属性を含みます。このクラスは、PDPagePDAnnotationなどのクラスが管理する視覚的なプレゼンテーション層ではなく、セマンティック構造層を特に扱う点で、関連するPDFBoxクラスと区別されます。

重要性

アクセシブルなPDFアプリケーションを構築する開発者にとって、PDStructureElementは、PDF/UAなどのアクセシビリティ標準 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) に準拠したタグ付きPDF文書を作成・維持するために不可欠です。適切な構造要素がなければ、支援技術は文書コンテンツを確実に解釈できず、障害を持つユーザーにとってPDFがアクセシブルではなくなります。このクラスにより、開発者は以下のことが可能になります:

  • 既存のPDF文書にプログラムでセマンティック構造を追加する
  • コンテンツのリフローや再利用のために文書構造を抽出・分析する
  • 既存文書の構造ツリーを検証・修復する
  • 自動化されたPDFアクセシビリティ修復ワークフローを実装する
  • 最初から適切にタグ付けされた出力を生成するカスタムPDF生成ツールを構築する

構造要素をプログラムで扱う能力は、政府文書、教育資料、公開コンテンツにタグ付きPDFを義務付けるアクセシビリティ規制が進む中で、ますます重要になっています。

仕組み

PDStructureElementは、PDF構造ツリーのコンテキスト内で動作します。構造ツリーは構造ツリールート(PDFBoxではPDStructTreeRootを介してアクセス)から始まります。各PDStructureElementインスタンスは、PDF仕様 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) に従って要素のプロパティを含む基盤となるCOSDictionaryをラップします。

主な操作には以下が含まれます:

構造階層のナビゲーション:開発者は、getParent()getKids()などのメソッドを使用して親子関係をトラバースし、構造ツリーを上下に移動できます。各要素は複数の子要素を持つことができ、文書構成を反映したネストされた構造を作成します(例:セクションを含むドキュメント、段落を含むセクション)。

要素プロパティへのアクセス:このクラスは、構造タイプ(getStructureType())、非テキストコンテンツの代替テキスト(getAlternateDescription())、略語や置換のための実際のテキスト(getActualText())、言語情報など、標準的な構造要素属性のゲッターとセッターを提供します。

コンテンツへの接続:構造要素は、マークされたコンテンツ参照(MCR)またはオブジェクト参照を通じて実際のPDFコンテンツにリンクします。PDStructureElementは、これらの関連付けを扱うメソッドを提供し、開発者はページ上のどの視覚的コンテンツがどの論理構造要素に対応するかを識別できます。

新しい構造の作成:タグ付きPDFを構築する際、開発者は ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で定義されている標準構造タイプ(段落のP、見出しのH1-H6、Table、Figureなど)から適切な構造タイプを持つPDStructureElementオブジェクトをインスタンス化し、それらを構造ツリーに追加してコンテンツストリームと関連付けます。

このクラスは、PDFディクショナリの一貫性を維持する複雑さを処理し、文書が保存される際に構造ツリーへの変更が基盤となるPDFファイルに適切に反映されることを保証します。

関連用語

  • Tagged PDF(タグ付きPDF) – 論理的な文書構成とアクセシビリティ情報を定義するための構造要素を含むPDF文書
  • PDStructTreeRoot – PDF文書の構造ツリー階層のルートを表すApache PDFBoxクラス
  • PDPage – PDF文書内の個々のページを表すApache PDFBoxクラス。構造要素によって参照される視覚的コンテンツを含む
  • Marked Content(マークされたコンテンツ) – 視覚要素を構造ツリーエントリと関連付けるマーカーを持つPDFコンテンツストリーム
  • Role Map(ロールマップ) – PDFアクセシビリティのために、カスタム構造タイプを標準構造タイプの観点から定義するマッピング

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html