Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

Artifact

Artifactは、Tagged PDFにおける特殊なマークドコンテンツで、支援技術が無視すべきページ要素を識別し、文書の論理構造から除外するために使用されます。

キーワード: artifact, Artifact

概要

Artifactは、Tagged PDFにおける特殊なマークドコンテンツで、支援技術が無視すべきページ要素を識別し、文書の論理構造から除外するために使用されます。一般的な例としては、装飾要素、ページヘッダー、フッター、透かし、背景画像など、視覚的な表現には必要だが文書内容の理解には不可欠ではない要素が挙げられます ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。このようなコンテンツをArtifactとしてマークすることで、PDF作成者はスクリーンリーダーなどの支援技術が純粋に装飾的な要素をスキップし、実際の文書コンテンツに集中できるようにします ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html )

定義

Tagged PDFにおいて、Artifactとは、マークドコンテンツシーケンス内の/Artifactプロパティを使用して、明示的に非コンテンツとして指定されたマークドコンテンツです。文書の論理構造を表す標準的なタグ付きコンテンツ(段落、見出し、リストなど)とは異なり、Artifactは、レイアウト、ページ付け、または装飾目的のためだけに存在する補助的な視覚要素を表します ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ )

Artifactは、以下のようないくつかのタイプに分類されます:

  • Pagination artifacts(ページ番号、ヘッダー、フッター)
  • Layout artifacts(列区切り、装飾罫線)
  • Page artifacts(透かし、背景画像)
  • Undefined artifacts(一般的な装飾要素)

Artifactと通常のタグ付きコンテンツの主な違いは、Artifactが文書の構造ツリーと論理的な読み順から明示的に除外されることです。スクリーンリーダーがTagged PDFを処理する際、構造ツリーをトラバースしてユーザーにコンテンツを提示しますが、Artifactはこのトラバース中に意図的にバイパスされます。

重要性

コンテンツをArtifactとして適切にマークすることは、PDF/UA標準に準拠し、支援技術を使用する人々に優れたユーザーエクスペリエンスを提供するアクセシブルなPDF文書を作成するために不可欠です。開発者が装飾的または補助的なコンテンツをArtifactとしてマークしないと、スクリーンリーダーが「50ページ中1ページ」などの無関係な情報を繰り返し読み上げたり、すべてのページでヘッダーテキストを読み上げたり、装飾画像を説明したりして、ユーザーに混乱とフラストレーションを引き起こす可能性があります。

PDF生成ワークフローや修復ツールを構築する開発者にとって、Artifactを理解することは以下を保証するのに役立ちます:

  • PDF/UAやWCAGなどのアクセシビリティ標準への準拠
  • スクリーンリーダーユーザーのナビゲーションエクスペリエンスの向上
  • 冗長または不要な情報を排除することによる認知的負荷の軽減
  • 表現的コンテンツと意味的コンテンツの適切な分離

装飾要素を実際のコンテンツとして誤ってタグ付けしたり、それらをArtifactとしてマークしなかったりすることは、PDF文書における最も一般的なアクセシビリティエラーの1つであり、アクセシビリティ監査の失敗や法的コンプライアンスの問題を引き起こす可能性があります。

仕組み

Artifactは、特定のコンテンツを非構造的として指定するマークドコンテンツ演算子を使用してPDFに実装されます。技術的なレベルでは、Artifactは/Artifactとペアになったマークドコンテンツ演算子BMC(Begin Marked Content)またはBDC(Begin Marked Content with properties)を使用して作成され、関連するコンテンツ演算子が続き、EMC(End Marked Content)で終了します。

シンプルなArtifactマーキングは、PDF構文では次のようになります:

/Artifact BMC
  (Header Text) Tj
EMC

より複雑なArtifactの場合、辞書を使用してプロパティを指定できます:

/Artifact <</Type /Pagination /Subtype /Header>> BDC
  (Page 1) Tj
EMC

Tagged PDFが準拠リーダーまたは支援技術によって処理される際、読み取りソフトウェアは以下を実行します:

  1. 文書の構造ツリーを解析して論理的な読み順を決定する
  2. コンテンツストリームの処理中にマークドコンテンツシーケンスに遭遇する
  3. コンテンツがArtifactとしてマークされているかどうかを確認する
  4. アクセシビリティAPIを通じて文書を提示する際に、Artifactとしてマークされたコンテンツをスキップする
  5. 構造ツリーの一部であるタグ付きコンテンツ要素のみを処理し続ける

PDFライブラリを使用する開発者は、非本質的な視覚要素をArtifactマーカーで適切にラップすることを確認する必要があります。これには通常、純粋に表現目的のコンテンツを識別し、そのコンテンツをレンダリングする前後に適切なマークドコンテンツ演算子を適用することが含まれます ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ )

関連用語

  • Tagged PDF – アクセシビリティとコンテンツの再利用を可能にする構造情報を含むPDF
  • Structure Tree(構造ツリー) – 文書構造を定義するタグ付きコンテンツ要素の階層的な組織
  • Marked Content(マークドコンテンツ) – 識別のためにマーキング演算子でラップされたPDFコンテンツストリーム内のコンテンツ
  • Assistive Technology(支援技術) – 障害のある人がデジタルコンテンツにアクセスするのを支援するソフトウェアおよびハードウェアツール
  • PDF/UA – PDF文書におけるユニバーサルアクセシビリティのISO標準

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html