Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

Marked content

Marked contentは、PDF内のコンテンツシーケンスに対して、特定のオペレータを使用してセマンティックまたは構造的なタグを付与するための基本的な仕組みです。

カテゴリ: General PDF Concepts
キーワード: marked content, Marked content

概要

Marked contentは、PDF内のコンテンツシーケンスに対して、特定のオペレータを使用してセマンティックまたは構造的なタグを付与するための基本的な仕組みです。これらのタグは、BMC(Begin Marked Content)、BDC(Begin Marked Content with property list)、EMC(End Marked Content)のオペレータによって区切られます ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。Marked contentは、文書の視覚的な外観に影響を与えることなく、PDFのコンテンツストリームの一部にメタデータや構造情報を関連付ける方法を提供します。

定義

Marked contentは、PDFコンテンツストリーム内で、一連の描画操作を識別タグで囲むための括弧システムです。コメントやアノテーションとは異なり、marked contentはコンテンツストリームに直接埋め込まれ、囲まれたコンテンツに関する追加のメタデータを提供するオプションのプロパティディクショナリを持つことができます ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html )

Marked contentオペレータには2つのタイプがあります。BMCはタグ名パラメータのみを取りますが、BDCはさらに属性を含むディクショナリを参照できるプロパティリストを受け取ります。どちらのタイプも、marked contentシーケンスを閉じるために対応するEMCオペレータとペアにする必要があります。これらのシーケンスはネストすることができ、コンテンツの階層的な構成を可能にします。

Marked contentは、文書構造レベルではなくコンテンツストリームレベルで存在する点で、Tagged PDFの構造とは異なります。Tagged PDFは文書の論理的階層を定義するために構造ツリーを使用しますが、marked contentは、ページストリーム内の実際のコンテンツをマーキングし、それを構造に接続するための低レベルの仕組みを提供します ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ )

重要性

PDFのアクセシビリティ、抽出、または文書解析に取り組む開発者にとって、marked contentは不可欠なインフラストラクチャです。これは、PDFの視覚的コンテンツとその論理構造との間の橋渡しとして機能し、支援技術が文書コンテンツを適切に解釈できるようにします ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html )

PDF生成または処理アプリケーションを開発する際、marked contentを理解することは、アクセシブルな文書の作成、セマンティクスを保持したコンテンツ抽出の実装、コンテンツのリフローや再利用などの高度な機能を実現するために極めて重要です。Marked contentを無視するアプリケーションは、視覚的には正しいがアクセシビリティ要件を満たさないPDFを生成したり、コンテンツ抽出時にセマンティックな意味を失ったりする可能性があります。

Marked contentはまた、開発者が特定のコンテンツシーケンスにメタデータや役割情報を付加することを可能にします。例えば、スクリーンリーダーによって無視されるべきアーティファクトの識別、テキスト内の言語変更のマーク付け、グラフィカル要素への代替説明の関連付けなどです ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ )

仕組み

Marked contentは、PDFコンテンツストリーム内の3つの主要なオペレータを通じて動作します。

BMC(Begin Marked Content):単一のタグ名パラメータを取り、marked contentシーケンスを開始します。例えば、BMCは装飾的なコンテンツを示すために「Artifact」としてタグ付けされたセクションを開始する場合があります。

BDC(Begin Marked Content with Dictionary):タグ名と、インラインディクショナリまたはページのPropertiesディクショナリ内のディクショナリを参照する名前の両方を取ります。これにより、実際のテキスト代替、言語仕様、構造的関連付けなど、marked contentに構造化されたプロパティを付加できます。

EMC(End Marked Content):最も最近に開かれたmarked contentシーケンスを閉じます。これらのオペレータは適切にバランスを取る必要があり、各BMCまたはBDCには対応するEMCが必要です。

Tagged PDF文書では、marked contentシーケンスはMCID(Marked Content Identifier)プロパティを使用して、コンテンツストリーム要素を文書の構造ツリー内のノードにリンクします。この接続により、論理構造がページ上の特定の視覚的コンテンツを参照でき、スクリーンリーダーや他の支援技術が正しい読み上げ順序と適切なセマンティック情報でコンテンツを提示できるようになります。

Marked contentシーケンスは階層関係を表現するためにネストできますが、開発者は有効なPDF構造を維持するために、すべてのシーケンスの適切なネストと閉じを確保する必要があります。

関連用語

  • Content Stream – PDFページコンテンツの外観を定義する描画オペレータのシーケンス
  • Tagged PDF – 文書コンテンツの論理的な構成と読み上げ順序を定義する構造ツリーを含むPDF
  • Structure Tree – MCIDを通じてmarked contentを参照する、文書の論理構造の階層的表現
  • PDF Operators – コンテンツストリーム内で、描画、テキスト配置、その他の操作を実行するコマンド
  • Accessibility – 障害を持つユーザーのための支援技術によってPDF文書を使用可能にする機能

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html