ブロックレベルタグ(Block level tag)
ブロックレベル構造要素(BLSE)は、段落、見出し、リスト、表、図などのブロックレベルでコンテンツを整理する構造単位を表すTagged PDFの基本コンポーネントです。
ブロックレベル構造要素(BLSE)は、段落、見出し、リスト、表、図などのブロックレベルでコンテンツを整理する構造単位を表すTagged PDFの基本コンポーネントです ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。これらの要素は、PDFドキュメントを支援技術にアクセス可能にし、適切なコンテンツのリフローを可能にする論理構造ツリーを作成します。ブロックレベルタグは、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているように、Tagged PDFドキュメント内の主要な組織化フレームワークを形成します。
ブロックレベル構造要素は、インラインテキストフラグメントではなく、完全で自己完結したコンテンツブロックを定義するPDFの論理構造ツリー内のタグです。一般的なブロックレベルタグには、段落用の<P>、見出し用の<H1>から<H6>、画像やグラフィックス用の<Figure>、表形式データ用の<Table>、リスト用の<L>などがあります
(
Citation: PDF Association, 2023
PDF Association(2023). Retrieved from
https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
)
。
ブロックレベル要素は、インラインレベル構造要素(ILSE)といくつかの重要な点で異なります。ブロックレベル要素は通常、新しい行で始まり利用可能な幅全体を占める独立したコンテンツ単位を表すのに対し、<Span>、<Link>、<Strong>などのインライン要素は、ブロックレベルコンテンツのフロー内に存在し、構造的な区切りを作成しません。ブロックレベル要素は、他のブロックレベル要素とインライン要素の両方を含むことができ、ドキュメントの意味的な構成を反映する階層的なドキュメント構造を作成します。
ブロックレベル要素とインラインレベル要素の区別は、HTMLやCSSの類似概念を反映しており、PDFアクセシビリティに取り組むWeb開発者にとって馴染みのある構造となっています。
PDFドキュメントを作成または修正する開発者にとって、ブロックレベル構造要素の適切な使用は、PDF/UA準拠とアクセシビリティに不可欠です ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。スクリーンリーダーなどの支援技術は、ブロックレベルタグに依存してドキュメント構造をナビゲートし、ユーザーが見出し間をジャンプしたり、表をスキップしたり、図の代替テキストにアクセスしたりできるようにします。
ブロックレベル構造要素は、コンテンツの抽出と再利用の方法に直接影響します。PDFコンテンツが他の形式に変換されたり、クリップボードにコピーされたり、モバイルデバイス用にリフローされたりする際、ブロックレベル構造がコンテンツ単位の識別と保持の方法を決定します。不適切にタグ付けされた、またはタグ付けされていないブロック要素は、テキスト順序の混乱、意味的な意味の喪失、アクセス不可能なドキュメントを引き起こす可能性があります。
開発の観点から、PDFBox、iText、Adobe PDF Libraryなどのライブラリを使用してプログラム的にTagged PDFを生成する場合、ブロックレベル要素の理解は非常に重要です。適切なタグ付けは、後から追加するのではなく、ドキュメント作成時に実装する必要があるためです。
ブロックレベル構造要素は、視覚的なコンテンツストリームとは別の階層であるPDFの論理構造ツリーに実装されます。各ブロックレベル要素は、PDFファイル内の構造要素辞書によって表され、その型(/Sエントリを通じて)を指定し、実際のコンテンツへの参照を含みます
(
Citation: N.A., 2020
(N.A.).
(2020).
Document management — Portable document format — Part 2: PDF 2.0
.
International Organization for Standardization
Retrieved from
https://www.iso.org/standard/75839.html
)
。
構造ツリーはルート要素から始まり、段階的により具体的なブロックレベル要素に分岐します。たとえば、ドキュメントには<Sect>要素を含む<Document>ルートがあり、<Sect>要素には<H1>と<P>要素が含まれ、これらにはインライン要素または直接的なコンテンツ参照が含まれる場合があります。
各ブロックレベル要素は、マーク付きコンテンツシーケンスを使用して、論理構造をPDFのコンテンツストリーム内の実際のコンテンツにリンクします。これらのマーク付きコンテンツオペレーター(通常はBMC/EMCまたはBDC/EMCのペア)は、可視コンテンツをレンダリングするグラフィカル命令をラップし、ページに表示される内容と構造ツリーが記述する内容との関連付けを作成します
(
Citation: PDF Association, 2023
PDF Association(2023). Retrieved from
https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
)
。
PDF仕様では、一貫性を確保するためにブロックレベル要素の標準構造タイプを定義しています。PDFはカスタムタグ名を作成するためのロールマッピングをサポートしていますが、これらは最終的に、準拠するリーダーや支援技術による適切な解釈のために標準タイプにマップバックする必要があります。
- インラインレベル構造要素(ILSE) – スパン、リンク、強調テキストなど、ブロックレベル要素内のコンテンツフラグメントを表す構造要素
- Tagged PDF – コンテンツの意味的な構成を定義する論理構造ツリーを含むPDFドキュメント
- 論理構造ツリー – ドキュメントの意味的構造を表す構造要素の階層的な組織
- PDF/UA – 構造要素の適切な使用を要求する、普遍的にアクセス可能なPDFドキュメントのISO規格
- 標準構造タイプ – 一貫したドキュメントタグ付けのためにPDF仕様で定義された構造要素タグの事前定義セット
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
