マークドコンテンツ列(Marked-content sequence)
マークドコンテンツ列は、PDFコンテンツストリーム内の連続したコンテンツ部分であり、マークドコンテンツオペレータで囲まれ、マークドコンテンツ識別子(MCID)を通じて構造情報と関連付けられています。
マークドコンテンツ列は、PDFコンテンツストリーム内の連続したコンテンツ部分であり、マークドコンテンツオペレータで囲まれ、マークドコンテンツ識別子(MCID)を通じて構造情報と関連付けられています。これらの列は、ページ上の視覚的なコンテンツと、PDFをアクセシブルにする論理的な構造ツリーとの橋渡しを形成します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。テキスト、画像、グラフィックスを問わず、PDFのタグ付きコンテンツのすべての部分は、支援技術によって適切に認識されるためにマークドコンテンツ列で囲まれている必要があります ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。
マークドコンテンツ列は、PDFコンテンツストリーム内のマークドコンテンツオペレータのペアによって定義されます:開始オペレータ(BDC - Begin Dictionary Content、または BMC - Begin Marked Content)と終了オペレータ(EMC - End Marked Content)です。開始オペレータには、タグ名と、通常はMCID(マークドコンテンツ識別子)を含むプロパティ辞書が含まれ、コンテンツを文書の構造ツリー内の特定の要素にリンクします
(
Citation: PDF Association, 2023
PDF Association(2023). Retrieved from
https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
)
。
コンテンツストリーム内にのみ存在する単純なグラフィカルコンテンツとは異なり、マークドコンテンツ列は双方向の関係を作成します:コンテンツストリームにはMCID参照を含む視覚的表現が含まれ、構造ツリーにはこれらのMCIDを指し示す対応する構造要素が含まれます。この二重の表現により、同じコンテンツを視覚的にレンダリングするとともに、意味的に解釈することが可能になります。
マークドコンテンツ列は、構造メタデータと明示的に関連付けられている点で、マークなしコンテンツとは異なります。また、構造ツリーに存在し、異なるページやコンテンツストリームにまたがる1つ以上のマークドコンテンツ列を参照する可能性のある構造要素とも異なります。
PDFアクセシビリティを実装する開発者にとって、マークドコンテンツ列は、準拠したTagged PDFおよびPDF/UA文書を作成するための基礎となります。適切に定義されたマークドコンテンツ列がなければ、スクリーンリーダーなどの支援技術は意味のある順序で文書コンテンツにアクセスできず、PDFは障害を持つユーザーにとって事実上アクセス不可能になります。
プログラムでPDFを生成する際、開発者はすべての関連コンテンツが、構造要素に対応する有効なMCIDを持つマークドコンテンツ列で囲まれていることを確認する必要があります。欠落または誤って構成されたマークドコンテンツ列は、PDFアクセシビリティの最も一般的な失敗の1つです。デバッグツールやバリデータは、開始/終了オペレータの一致、有効なMCID参照、適切なネストを含む、マークドコンテンツ列の適切な形成を特にチェックします。
マークドコンテンツ列の理解は、既存のPDFを操作する際にも重要です。コンテンツストリームを変更する編集操作では、アクセシビリティ準拠を維持するために、マークドコンテンツ構造を保持または更新する必要があるためです。
マークドコンテンツ列は、タグとプロパティ辞書を指定するBDCオペレータで始まります。プロパティ辞書には通常、ページのコンテンツストリーム内でこのコンテンツを一意に識別するMCID整数値が含まれます。例えば、PDFコンテンツストリームでは次のように表示されます:
/P <</MCID 0>> BDC
(This is tagged text) Tj
EMC
この列は、テキストを段落コンテンツ(タグ /P)としてMCID 0で識別します。構造ツリーには、特定のページ上のこのMCIDを参照するK(kids)エントリを持つ対応する構造要素が含まれます。
PDFプロセッサは、ページ固有のMCIDマッピングを通じて、構造要素とマークドコンテンツ列の間の接続を維持します。ツリー内の構造要素が子としてMCID参照を持つ場合、プロセッサは参照されたページのコンテンツストリーム内で対応するマークドコンテンツ列を検索することを認識します。
マークドコンテンツ列はネストすることができ、テキストと画像の両方を含むリスト項目のような複雑な構造を適切に表現できます。ネストされた各列には、独自のMCIDと対応する構造要素参照が必要です。ネストは適切なルールに従う必要があります:列は親列内に完全に含まれ、正しい順序でEMCオペレータで適切に閉じられる必要があります。
アーティファクト(支援技術によって無視されるべき装飾的なコンテンツ)の場合、マークドコンテンツ列はMCIDなしで/Artifactタグを使用し、コンテンツに対応する構造要素がなく、論理的な読み取り中にスキップされるべきであることを示します。
- 構造要素(Structure element) – 構造ツリー内のノードで、コンテンツの意味的役割を記述し、MCIDを通じて1つ以上のマークドコンテンツ列を参照する可能性があります
- MCID(Marked-Content Identifier、マークドコンテンツ識別子) – ページのコンテンツストリーム内でマークドコンテンツ列を一意に識別し、構造要素にリンクする整数値
- コンテンツストリーム(Content stream) – マークドコンテンツ列を含む、実際の描画とテキストレンダリングオペレータを含むPDFページの部分
- 構造ツリー(Structure tree) – すべてのタグ付きコンテンツ要素を整理および記述する、PDFの論理的文書構造の階層的表現
- Tagged PDF – 構造ツリーとマークドコンテンツ列を含むPDFで、文書コンテンツを論理的な順序で抽出および再利用できるようにします
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
