PDArtifactMarkedContent
`PDArtifactMarkedContent`は、Apache PDFBoxのクラスで、PDF文書の構造ツリー内のアーティファクトとしてマークされたコンテンツを表現します。
PDArtifactMarkedContentは、Apache PDFBoxのクラスで、PDF文書の構造ツリー内のアーティファクトとしてマークされたコンテンツを表現します。
(
Citation: N.A., 2020
(N.A.).
(2020).
Document management — Portable document format — Part 2: PDF 2.0
.
International Organization for Standardization
Retrieved from
https://www.iso.org/standard/75839.html
)
で定義されているTagged PDF文書において、アーティファクトとは、ページ番号、ヘッダー、フッター、装飾的要素など、実際のコンテンツではなく制作プロセスの一部であるページ要素を指します。このクラスを使用することで、開発者は
(
Citation: N.A., 2014
(N.A.).
(2014).
Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1)
.
International Organization for Standardization
Retrieved from
https://www.iso.org/standard/64599.html
)
などの標準に準拠したアクセシブルなPDFを扱う際に、これらのアーティファクト指定をプログラム的に識別、アクセス、操作できます。
PDArtifactMarkedContentは、Apache PDFBoxのPDModel API内の特殊なクラスで、PDF文書内でアーティファクトとして指定されたマークされたコンテンツシーケンスをカプセル化します。
(
Citation: PDF Association, 2023
PDF Association(2023). Retrieved from
https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
)
によると、アーティファクトとは、ページ上のグラフィカルオブジェクトやテキストで、意味のあるコンテンツを伝達せず、支援技術によって無視されるべきものです。構造要素(段落、見出し、図など)を表す通常のマークされたコンテンツとは異なり、アーティファクトは表示要素や制作要素を表し、論理的な読み上げ順序の一部とすべきではありません。
このクラスは、/Artifactタグを具体的に処理する点で、他のPDFBoxのマークされたコンテンツクラスとは異なります。このタグには、アーティファクトタイプ(Pagination、Layout、Pageなど)を指定するプロパティ辞書を含めることができます。一般的なマークされたコンテンツ構造が意味論的なコンテンツ要素を表すのに対し、PDArtifactMarkedContentは、文書のアクセシビリティ機能やコンテンツ抽出プロセスから除外されるべきコンテンツを明示的にマークします。
PDFアクセシビリティソリューションや文書処理アプリケーションを構築する開発者にとって、アーティファクトを適切に処理することは、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 準拠の文書を作成するために不可欠です。スクリーンリーダーなどの支援技術がPDFを処理する際、アーティファクトをスキップして一貫性のある読み上げ体験を提供する必要があります。適切なアーティファクトマーキングがない場合、ユーザーは文書全体を通して「100ページ中23ページ」のような無関係な情報を繰り返し聞くことになり、アクセシビリティが著しく低下します。
さらに、インデックス作成、検索、データ処理のためにPDFからテキストコンテンツを抽出する場合、実際のコンテンツとアーティファクトを区別することで正確な結果が保証されます。たとえば、文書パーサーは、すべてのページに表示される「DRAFT」という透かしがアーティファクトであり、文書の実際のテキストコンテンツではないことを認識する必要があります。
Apache PDFBoxでPDFを解析する際、マークされたコンテンツシーケンスは、コンテンツストリーム内のマークされたコンテンツ演算子を通じて識別されます。PDArtifactMarkedContentクラスは、/Artifactタグで始まるマークされたコンテンツをラップし、その後にプロパティ辞書が続く場合があります。開発者はこのクラスを使用して次のことができます:
- マークされたコンテンツシーケンスがアーティファクトかどうかを照会する
- アーティファクトタイプ(Pagination、Layout、Page、または未定義)を取得する
- アーティファクトのバウンディングボックスと配置情報にアクセスする
- 既存のコンテンツストリームのアーティファクト指定を変更または追加する
- コンテンツが論理構造ツリーから適切に除外されることを保証する
このクラスは、PDFBoxの高レベルのページおよびコンテンツ処理APIと統合されており、開発者はページコンテンツを反復処理し、コンテンツ抽出または検証ワークフローの一部としてアーティファクトを識別できます。アクセシブルなPDFを作成する際、開発者はこのクラスを使用して装飾要素や制作要素をプログラム的にマークし、結果として得られる文書が ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で概説されているアクセシビリティ標準を満たすことを保証できます。
- Tagged PDF – コンテンツ要素の読み上げ順序と意味的関係を定義する論理構造ツリーを持つPDF文書
- Marked Content – 構造とプロパティを定義するマークされたコンテンツ演算子で囲まれたPDFコンテンツストリーム内のシーケンス
- Structure Tree – アクセシビリティとコンテンツリフローに使用されるPDF文書の論理構造の階層表現
- PDModel API – PDF文書構造の読み取りと操作を行うためのApache PDFBoxの高レベルJava API
- Assistive Technology – 障害を持つユーザーがデジタルコンテンツにアクセスするのを支援するスクリーンリーダーなどのソフトウェアやデバイス
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
