PDMarkedContentReference
PDMarkedContentReferenceは、Apache PDFBoxの高レベルPDModel APIに含まれるクラスで、PDF文書の構造ツリー内のマークされたコンテンツへの参照を表します。
PDMarkedContentReferenceは、Apache PDFBoxの高レベルPDModel APIに含まれるクラスで、PDF文書の構造ツリー内のマークされたコンテンツへの参照を表します。PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) において、マークされたコンテンツ参照により、構造要素が直接コンテンツを含むことなく、ページ上の特定のコンテンツシーケンスを指し示すことができます。このクラスは、Java開発者がこれらの参照をプログラム的に読み取り、操作するためのアクセスを提供します。これは、PDF/UA ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準に準拠したアクセシブルなPDFを作成する上で不可欠です。
PDMarkedContentReferenceは、PDF論理構造階層内のマークされたコンテンツ参照(MCR)要素をモデル化するJavaクラスです。コンテンツや他の構造要素を直接含む構造要素とは異なり、マークされたコンテンツ参照は、ページのコンテンツストリーム内のマークされたコンテンツシーケンスへのポインタとして機能します。これらの参照は、マークされたコンテンツ識別子(MCID)によって識別され、論理構造とPDFページ上に実際にレンダリングされるコンテンツを結びつけます。
Tagged PDF ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) の文脈において、マークされたコンテンツ参照は、文書の構造ツリー(論理的な読み順序と意味論的意味を定義)とページコンテンツストリーム(実際のグラフィックスとテキスト演算子を含む)の間の橋渡しを形成します。この分離により、同じコンテンツを異なる構造要素から複数回参照したり、構造的な関係を壊すことなく柔軟な文書編集を可能にします。
PDMarkedContentReferenceは、PDStructureElement(構造的なコンテナを表す)やPDObjectReference(マークされたコンテンツシーケンスではなくPDFオブジェクト全体を参照する)などの他のPDFBox構造クラスとは異なります。これは、構造要素辞書内の子として現れるMCRエントリを特に扱います。
アクセシブルなPDF文書を扱う開発者にとって、PDMarkedContentReferenceを理解することは、いくつかの理由から極めて重要です。
アクセシビリティ準拠: PDF/UAや他のアクセシビリティ標準 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) は、すべてのコンテンツの適切なタグ付けを要求します。マークされたコンテンツ参照は、ページ上のすべての可視コンテンツが構造要素に関連付けられることを保証し、支援技術が視覚的なレイアウトに関係なく論理的な読み順序でコンテンツを提示できるようにします。
文書修復: タグなしまたは不適切にタグ付けされたPDFを修正する際、開発者は構造要素とページコンテンツの間に正しい関係を確立するために、マークされたコンテンツ参照を作成または修正する必要があります。PDMarkedContentReferenceクラスは、この修復作業に必要なAPIメソッドを提供します。
コンテンツ抽出とリフロー: 論理的な読み順序でテキストを抽出したり、異なる表示コンテキスト用にコンテンツをリフローする必要があるアプリケーションは、ページ上の視覚的な配置が読み順序と一致しない場合でも、正しいシーケンスを決定するために構造ツリーとそのマークされたコンテンツ参照に依存します。
PDF文書内のマークされたコンテンツ参照は、PDMarkedContentReferenceがそのAPIを通じて公開するいくつかの重要なコンポーネントで構成されています。
MCID(マークされたコンテンツ識別子): 各マークされたコンテンツ参照には、ページのコンテンツストリーム内の特定のマークされたコンテンツシーケンスを識別する整数MCIDが含まれています。PDFBoxは、この識別子を取得するためのメソッドを提供します。これは、ページストリーム内のコンテンツをラップするマークされたコンテンツ演算子(BDC/BMCとEMC)に対応します。
ページ参照: マークされたコンテンツ参照は、参照されるコンテンツを含むページを指定する必要があります。PDMarkedContentReferenceは、関連付けられたPDPageオブジェクトへのアクセスを提供します。これは、マークされたコンテンツシーケンスがページコンテンツストリーム内に存在するためです。
親構造要素: すべての構造ツリーノードと同様に、マークされたコンテンツ参照は構造要素の子として存在します。このクラスは、PDFBoxの構造ツリーナビゲーションメソッドと統合されており、開発者が親要素まで遡ったり、兄弟参照を横断したりできるようにします。
構造ツリーとの統合: PDFBoxのAPIを使用してPDFの構造ツリーを走査する際、開発者はリーフノードとしてPDMarkedContentReferenceオブジェクトに遭遇します。これらは、抽象的な構造が具体的なページコンテンツと出会うエンドポイントを表します。PDStructureElementクラスのメソッドは、他の構造の子と共にPDMarkedContentReferenceインスタンスを含む可能性のあるコレクションを返します。
開発者は通常、構造要素を反復処理したり、文書構造を検証したり、プログラムで新しいタグ付きコンテンツを作成する際に、PDMarkedContentReferenceを扱います。このクラスは、PDF仕様で定義された基礎となる辞書エントリとオブジェクト関係を処理し、低レベルの詳細を高レベルのJava APIの背後に抽象化します。
- PDStructureElement – PDF構造ツリー内の構造的コンテナ要素を表すクラスで、マークされたコンテンツ参照を子として含むことができます
- Tagged PDF – 論理構造情報を持つPDF文書で、マークされたコンテンツ参照を使用して構造とページコンテンツを関連付けます
- MCID(マークされたコンテンツ識別子) – 構造ツリー内のマークされたコンテンツ参照をページコンテンツストリーム内のマークされたコンテンツシーケンスに結びつける整数識別子
- 構造ツリー – PDF文書の論理構造の階層的表現で、マークされたコンテンツ参照がリーフノードとして機能します
- PDF/UA(ユニバーサルアクセシビリティ) – アクセシブルなPDFのためのISO標準で、すべてのコンテンツをタグ付けするためにマークされたコンテンツ参照の適切な使用を要求します
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
