Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

PDMarkedContent

PDMarkedContentは、Apache PDFBox PDModel APIのクラスで、PDF文書内のマークされたコンテンツシーケンスを表現します。

キーワード: pdmarkedcontent, PDMarkedContent

概要

PDMarkedContentは、Apache PDFBox PDModel APIのクラスで、PDF文書内のマークされたコンテンツシーケンスを表現します。マークされたコンテンツは、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているPDFの基本構造であり、コンテンツにメタデータをタグ付けすることを可能にします。特に、 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で規定されているアクセシブルなTagged PDF文書の作成において重要です。この高レベルAPIクラスは、開発者がマークされたコンテンツセクションをプログラムで読み取り、作成、変更する機能を提供し、文書構造、アクセシビリティ機能、コンテンツの整理に不可欠な要素となっています。

定義

PDMarkedContentは、Apache PDFBoxのorg.apache.pdfbox.pdmodelパッケージに含まれるJavaクラスで、PDFコンテンツストリーム内のマークされたコンテンツ演算子とそれに関連するプロパティをカプセル化します。PDF用語において、マークされたコンテンツは、BMC(Begin Marked Content)、BDC(Begin Marked Content with properties)、EMC(End Marked Content)などの演算子によって区切られ、コンテンツ要素の論理的なグループを作成します。PDMarkedContentクラスは、これらの低レベルPDF演算子を抽象化し、マークされたコンテンツシーケンスを扱うためのオブジェクト指向インターフェースを提供します。

PDF構文を直接操作する必要がある低レベルのコンテンツストリーム演算子とは異なり、PDMarkedContentは、タグ名(「Figure」、「P」、「Span」など)、関連するプロパティ辞書、ネストされたコンテンツにアクセスするための構造化されたアプローチを提供します。これは、より大きな文書構造を表すPDPagePDResourcesなどのクラスとは異なり、PDMarkedContentはコンテンツストリーム内の細かいコンテンツグループ化メカニズムに特化しています。

重要性

PDMarkedContentは、アクセシブルなPDFを扱う開発者にとって重要です。Tagged PDF文書は、文書構造を定義するためにマークされたコンテンツに大きく依存しているためです ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。適切なマークされたコンテンツ構造がなければ、PDF文書はPDF/UAなどのアクセシビリティ基準を満たすことができず、スクリーンリーダーや支援技術が文書コンテンツを適切に解釈することができません。

PDF生成、修復、分析ツールを構築する開発者にとって、PDMarkedContentは文書構造ツリーのプログラム的な操作を可能にします。これには、画像への代替テキストの追加、読み上げ順序から除外するためのテキストのアーティファクトとしてのマーク付け、見出し階層の定義、適切な表構造の作成などのタスクが含まれます。これらの機能は、アクセシビリティ要件に関する規制への準拠を確保する必要がある組織や、すべてのユーザーにとって文書の使いやすさを向上させる必要がある組織にとって不可欠です。

仕組み

PDMarkedContentは、マークされたコンテンツセクションを、3つの主要コンポーネントを含むオブジェクトとして表現することで機能します:タグ名(コンテンツタイプを識別する文字列)、オプションのプロパティ辞書(代替テキストや実際のテキストなどのメタデータを含む)、コンテンツストリーム内のマークされたコンテンツの位置への参照です。

PDFコンテンツを読み取る際、開発者はPDFBoxのコンテンツストリームパーサーを使用します。このパーサーは、ストリーム内でマークされたコンテンツ演算子に遭遇すると、PDMarkedContentオブジェクトを生成します。これらのオブジェクトは階層的に走査できます。マークされたコンテンツはネストできるためです(例えば、複数のspanを含む段落)。このクラスは、タグ名とプロパティ辞書にアクセスするためのgetterメソッドを提供します。

マークされたコンテンツを作成または変更する際、開発者はPDMarkedContentオブジェクトをインスタンス化し、PDPageContentStreamメソッドを使用してコンテンツストリームに追加します。プロパティ辞書には、Alt(代替テキスト)、ActualText(置換テキスト)、Lang(言語指定)などのエントリを入力できます。文書を保存すると、PDFBoxはこれらのオブジェクトをPDF構文内の適切なマークされたコンテンツ演算子にシリアライズします。

このクラスは、PDFBoxの構造ツリーAPIと統合されており、マークされたコンテンツをTagged PDF準拠に必要な論理的文書階層を定義する構造要素にリンクできます。

関連用語

  • Tagged PDF – マークされたコンテンツと構造ツリーを通じて構造情報を含むPDF文書で、アクセシビリティとコンテンツの再利用を可能にします
  • PDStructureElement – PDF文書の構造ツリー階層内のノードを表すApache PDFBoxクラス
  • Content Stream – PDFページ上のコンテンツの外観を記述するPDF演算子とオペランドのシーケンス
  • PDF/UA – 適切なマークされたコンテンツと構造を必要とする、アクセシブルなPDF文書のISO規格
  • PDPageContentStream – マークされたコンテンツシーケンスを含む、PDFページにコンテンツと演算子を書き込むためのApache PDFBoxクラス

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html