Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

Conversion indexing

Conversion indexingとは、PDF生成または変換ワークフローにおいて、構造要素とメタデータをマッピングするプロセスを指します。

カテゴリ: General PDF Concepts
キーワード: conversion indexing, Conversion indexing

概要

Conversion indexingとは、PDF生成または変換ワークフローにおいて、構造要素とメタデータをマッピングするプロセスを指します。ソースフォーマット(Word、HTML、InDesignなど)からPDFへ文書を変換する際、indexingは元の文書要素がPDF構造にどのように対応するかを追跡します。特にアクセシビリティ標準に準拠したTagged PDFを作成する場合に重要です ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 。このindexingにより、セマンティック情報、読み上げ順序、文書構造が変換プロセス全体を通じて保持されます。

定義

Conversion indexingは、文書変換時にソース文書の要素とPDF内の対応要素との関係を維持する、バックグラウンドで動作する仕組みです。見出し、段落、リスト、表、その他の構造要素が、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているPDFの論理構造ツリーにどのように変換されるかを追跡するマッピングシステムを作成します。

単純なコンテンツ抽出やレンダリングとは異なり、conversion indexingはセマンティック階層とアクセシビリティ情報の保持に特化しています。文書indexing(コンテンツの検索可能なインデックスを作成するもの)とは、コンテンツの発見ではなく構造的な対応関係に焦点を当てている点で異なります。このindexingプロセスは、各コンテンツ要素が適切な構造タグに関連付けられる必要があるTagged PDF文書を生成する際に特に重要です。

重要性

PDF生成または変換ツールを開発する開発者にとって、適切なconversion indexingは、コンプライアンス要件を満たすアクセシブルで構造化されたPDFを作成するために不可欠です。正確なindexingがなければ、生成されたPDFは視覚的には正しく見えても、スクリーンリーダー、コンテンツのリフロー、自動文書処理に必要な基礎構造を欠く可能性があります。

Conversion indexingはPDF/UAコンプライアンスに直接影響し、支援技術が文書コンテンツを適切に解釈できるかどうかを決定します。indexingが失敗したり、正しく実装されていない場合、開発者はPDFに遡及的にタグを付けるための高コストな修復作業に直面します。最初から堅牢なconversion indexingを実装することで、生成されたPDFがセマンティックの整合性を維持し、障害のあるユーザーがすぐに使用できるようになるとともに、検索性やコンテンツ抽出機能も向上します。

仕組み

PDF変換中、indexingシステムは以下の主要な操作を実行します:

  1. 要素の識別: コンバーターは、ソース文書内の構造要素(見出し、段落、リスト、表、図)を識別し、それぞれに一意の識別子を割り当てます。

  2. 構造マッピング: 各ソース要素は、 ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で指定されている適切なPDF構造タイプにマッピングされます。例えば、HTMLの<h1>タグをPDFの/H1構造要素にマッピングします。

  3. 階層の保持: ソース文書の親子関係はPDFの構造ツリーに維持され、ネストされたリスト、テーブルセル、セクション階層が損なわれないようにします。

  4. コンテンツストリームの関連付け: indexingシステムは、タグ付けされた構造要素をPDF内の特定のコンテンツストリームとマーク付きコンテンツシーケンスにリンクし、論理構造とレンダリングされたコンテンツの間の接続を作成します。

  5. メタデータの保持: ソースからの代替テキスト、言語仕様、その他のメタデータがインデックス化され、対応するPDF構造要素に添付されます。

このindexing情報はPDFの構造ツリーとマーク付きコンテンツオペレーターに保存され、アプリケーションが文書の論理構造をナビゲートおよび解釈するために使用できる永続的なマップを作成します。

関連用語

  • Tagged PDF – コンテンツの論理的な構成と読み上げ順序を定義する構造タグを含むPDF
  • Structure tree(構造ツリー) – PDF形式における文書の論理構造の階層的表現
  • Marked content(マーク付きコンテンツ) – 文書構造における役割を識別するオペレーターでタグ付けされたPDFコンテンツストリーム
  • PDF/UA – 適切な構造タグ付けを要求する、アクセシブルなPDF文書のためのISO規格
  • Logical structure(論理構造) – 視覚的な表現とは独立した、文書コンテンツのセマンティック構成

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html