Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

Metadata highlighting

メタデータハイライトとは、PDF文書内でハイライトされたテキスト注釈とそのプロパティを識別・記述する情報を埋め込む手法を指します。

キーワード: metadata highlighting, Metadata highlighting

概要

メタデータハイライトとは、PDF文書内でハイライトされたテキスト注釈とそのプロパティを識別・記述する情報を埋め込む手法を指します。このメタデータにより、アプリケーションはハイライトされたコンテンツにプログラム的にアクセスし、検索・処理することが可能になり、視覚的表現を超えて機械可読性を実現します。 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によると、ハイライトなどのテキストマークアップ注釈には、その外観、作成者、作成日、および関連コンテンツを記述するメタデータが含まれます。

定義

メタデータハイライトとは、PDF文書内のハイライト注釈に関連付けられた構造化データです。ユーザーまたはアプリケーションがPDF内にハイライト注釈を作成すると、文書は視覚的な外観(通常はテキスト上の色付きオーバーレイ)だけでなく、注釈タイプ、色値、不透明度、変更日時、作成者情報、ハイライトされている特定のテキストコンテンツへの参照などのメタデータプロパティも保存します。これは、ワードプロセッサや画像エディタでの単純な視覚的ハイライトとは異なります。単純なハイライトでは書式変更にすぎない場合がありますが、PDFではハイライトは包括的なメタデータを持つ独立した注釈オブジェクトであり、基礎となる文書コンテンツに影響を与えることなく、独立してクエリ、変更、または抽出することができます。このメタデータ構造は ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されている注釈辞書仕様に従っており、PDF準拠アプリケーション間での一貫した解釈を保証します。

重要性

PDF処理アプリケーションを構築する開発者にとって、メタデータハイライトを理解することは、いくつかの理由から極めて重要です。第一に、文書からユーザーが生成した洞察を抽出できるようになります。アプリケーションはユーザーが重要と判断した箇所をプログラム的に識別でき、コンテンツ分析や要約機能を促進します。第二に、 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で説明されているアクセシビリティワークフローをサポートします。適切なメタデータにより、支援技術が障害を持つユーザーにハイライト情報を伝達できるようになります。第三に、メタデータハイライトは協働機能を実現し、複数のユーザーの注釈を作成者、日付、その他のメタデータプロパティに基づいて追跡、フィルタリング、マージすることを可能にします。最後に、ユーザー注釈に基づいてコンテンツを優先順位付けまたはフィルタリングできる検索・インデックスシステムの基盤を提供し、文書管理システムをよりインテリジェントでコンテキスト認識型にします。

仕組み

技術的には、PDF内のハイライト注釈は、/Subtypeエントリが/Highlightである注釈辞書として表現されます。この辞書には、いくつかの重要なメタデータフィールドが含まれます:/Rectはバウンディング矩形を定義し、/QuadPointsはハイライトされたテキスト領域の正確な座標を指定し、/Cは色配列を保存し、/Tは作成者名を含み、/Mは変更日時を記録し、/Contentsにはオプションのコメントテキストが含まれる場合があります。 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) に従って適切に構造化されている場合、これらの注釈は文書の構造ツリーを通じて基礎となるコンテンツと関連付けることができます。これは ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で説明されているTagged PDFにとって特に重要です。開発者は、ページの/Annots配列を反復処理し、ハイライト注釈タイプでフィルタリングし、関連する辞書エントリを抽出することで、PDFライブラリを通じてこのメタデータにアクセスできます。注釈と実際のテキストコンテンツとの関係は、QuadPoints配列を通じて確立されます。この配列はコンテンツストリーム内の文字位置にマッピングされ、ハイライトされた箇所の正確なテキスト抽出を可能にします。

関連用語

  • 注釈辞書(Annotation dictionary) – ハイライトを含むPDF注釈のすべてのプロパティとメタデータを保存するデータ構造
  • テキストマークアップ注釈(Text markup annotations) – ハイライト、アンダーライン、取り消し線を含むPDF注釈のカテゴリで、すべて類似のメタデータ構造を共有します
  • Tagged PDF – 文書コンテンツに関するセマンティック情報を含むPDF構造で、注釈メタデータとのより良い統合を可能にします
  • コンテンツストリーム(Content stream – 実際のテキストとグラフィックス命令を含むPDFの部分で、ハイライト注釈はこれを参照しますが変更しません
  • アクセシビリティメタデータ(Accessibility metadata) – PDFが支援技術によって適切に解釈されることを保証する文書レベルおよび要素レベルの情報

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html