Conversion search
Conversion search(変換検索)は、フォーマット変換操作の実行中または実行後に、ドキュメント内のコンテンツを識別して特定するPDF処理技術です。
Conversion search(変換検索)は、フォーマット変換操作の実行中または実行後に、ドキュメント内のコンテンツを識別して特定するPDF処理技術です。この概念は、特定の規格やアクセシビリティ要件を満たすためにPDFを変換する際に特に重要です。開発者が特定のドキュメント要素をプログラムで検索および変更できるようにするためです。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) などの規格に準拠した構造化PDFを扱う場合、conversion searchは、変換ワークフロー中にドキュメント機能が適切にマッピングされ、保持されることを保証します。
Conversion searchとは、変換ワークフローの一部として、PDFドキュメント内の特定のコンテンツ、構造、またはメタデータを検索して識別するプロセスを指します。エンドユーザー向けにテキストを検索する一般的なPDF検索機能とは異なり、conversion searchは開発に焦点を当てた操作であり、フォーマット変換中に変更、検証、またはマッピングが必要なタグ、注釈、フォームフィールド、書式属性などのドキュメント要素を特定します。この技術は、異なるPDF規格(PDF/A、PDF/UA、PDF 2.0など)間の変換や、PDFをHTMLや ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 要件に準拠したアクセシブルなドキュメントなどの他の形式に変換する際に不可欠です。
Conversion searchは、PDFの構造的および論理的なコンポーネントを操作対象とする点で、従来のテキスト検索とは異なります。ドキュメントのタグツリーを検索したり、コンテンツストリームを調査したり、メタデータをクエリしたりして、変換プロセス中に注意が必要な特定の要素を特定することが含まれます。
PDF変換ツールやアクセシビリティ修復システムを構築する開発者にとって、conversion searchはドキュメント要素の識別と変更を自動化するために不可欠です。効果的なconversion search機能がなければ、開発者は変換が必要なすべての要素を手動で特定する必要があり、大規模なPDF処理が実用的ではなくなります。これは、 ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で説明されているTagged PDFを扱う場合に特に重要になります。論理構造を正確にマッピングして保持する必要があるためです。
Conversion searchにより、開発者は、変換されたドキュメントが必要な規格を満たしているかどうかを検証する堅牢な検証システムを構築し、アクセシビリティ問題の修復を自動化し、フォーマット変換中に重要なドキュメント機能が失われないようにすることができます。この自動化機能により、開発時間が大幅に短縮され、PDF変換ワークフローの信頼性が向上します。
Conversion searchは通常、複数の技術を組み合わせてPDFの内部構造をトラバースすることで動作します。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) に準拠したドキュメントを処理する場合、検索メカニズムは、特定のオブジェクトや属性を特定するために、ドキュメントカタログ、ページツリー、またはコンテンツストリームをクエリすることがあります。で説明されているTagged PDFの場合、検索プロセスには、特定のタグタイプ、属性、または関係を持つ要素を見つけるために構造ツリーをトラバースすることが含まれることがよくあります。
技術的な実装には、通常、次のものが含まれます。
- 構造トラバース - PDFの階層構造(タグツリー、ページツリー、またはオブジェクトグラフ)を走査して各要素を調査する
- パターンマッチング - タグ名、属性値、コンテンツパターンなどの特定の基準に一致する要素を識別する
- コンテキスト評価 - 要素間の関係を評価して、変換要件を満たしているかどうかを判断する
- 結果収集 - 後続の変更または検証のために、一致した要素への参照を収集する
開発者は通常、ドキュメント構造にアクセスするためのAPIを提供するPDF操作ライブラリを使用してconversion searchを実装し、変換要件に基づいて要素をプログラムでクエリおよびフィルタリングできるようにします。
- Tagged PDF – 論理的な読み順序と要素の関係を定義する構造情報が埋め込まれたPDFドキュメント
- PDF/UA – 適切なタグ付けと構造を必要とする、アクセシブルなPDFドキュメントのISO規格
- Content stream – ページ上の視覚的なコンテンツをレンダリングするための命令を含むPDFの部分
- Structure tree – ドキュメントの論理構造を表すPDF内のタグの階層的な構成
- Document catalog – ドキュメントの構造とメタデータにアクセスするためのエントリポイントとして機能するPDF内のルートオブジェクト
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
