Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

Metadata search

メタデータ検索とは、PDFドキュメントのコンテンツではなく、埋め込まれたメタデータプロパティに基づいて、PDFドキュメントを検索、インデックス化、取得する機能を指します。

キーワード: metadata search, Metadata search

概要

メタデータ検索とは、PDFドキュメントのコンテンツではなく、埋め込まれたメタデータプロパティに基づいて、PDFドキュメントを検索、インデックス化、取得する機能を指します。PDFドキュメントには、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているように、文書情報辞書やXMP(Extensible Metadata Platform)ストリームなど、複数の形式で構造化されたメタデータを含めることができます。この検索メカニズムにより、エンタープライズシステム、コンテンツ管理プラットフォーム、デジタルアセット管理ワークフローにおいて、効率的なドキュメントの発見と管理が可能になります。

定義

メタデータ検索は、タイトル、著者、件名、キーワード、作成日、修正日、カスタムプロパティなど、PDFファイル内に埋め込まれた記述情報に対して動作するクエリおよび取得メカニズムです。ドキュメントの実際のコンテンツを調べる全文検索とは異なり、メタデータ検索は、ドキュメントの特性と属性を記述する構造化データフィールドを特にターゲットとします。 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) によれば、PDFファイルは、文書情報辞書による従来のメタデータと標準化されたXMPメタデータストリームの両方をサポートしており、どちらも検索操作に活用できます。メタデータ検索は、ドキュメントが適切にタグ付けおよびカタログ化されている場合に特に効果的です。検索結果の精度は、埋め込まれたメタデータの品質と完全性に完全に依存するためです。

重要性

文書管理システムを実装する開発者にとって、メタデータ検索はパフォーマンスと精度において重要な利点を提供します。メタデータフィールドは通常、より小さく、構造化されており、より効率的にインデックス化されるため、メタデータの検索は全文コンテンツ検索よりも大幅に高速です。このアプローチにより、開発者は、作成日の範囲、著者名、ドキュメントタイプなどの特定の属性でドキュメント検索を絞り込むことができるフィルタリングおよび分類機能を構築できます。メタデータ検索は、コンテンツではなく特定の管理プロパティに基づいてドキュメントを追跡および取得する必要があるコンプライアンスおよび記録管理のシナリオに不可欠です。さらに、 ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で概説されている適切なメタデータ標準と組み合わせることで、メタデータ検索は、支援技術がドキュメントのプロパティと構造情報を迅速に識別できるようにすることで、アクセシビリティワークフローをサポートします。

仕組み

メタデータ検索は、PDFドキュメントに埋め込まれた構造化メタデータフィールドを抽出してインデックス化することで動作します。開発者は、文書情報辞書(単純なキーと値のペアを使用する従来の形式)またはXMPメタデータストリーム(AdobeのXMP仕様に従ったXMLベースの構造化メタデータ)のいずれかを解析するPDFライブラリとAPIを通じて、プログラムでメタデータにアクセスできます。検索プロセスは通常、抽出(PDFファイルからメタデータを読み取る)、インデックス化(検索可能なデータベースまたは検索エンジンにメタデータを格納する)、クエリ(インデックス化されたメタデータに対して検索を実行する)の3つの段階で構成されます。最新の実装では、ElasticsearchやApache Solrなどのデータベースクエリや検索エンジンを使用してメタデータフィールドにインデックスを作成し、ブール演算子、範囲検索、ファセットナビゲーションを使用した複雑なクエリを可能にすることがよくあります。 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で指定されているように、XMPメタデータは、開発者がドメイン固有のメタデータ要件に対して定義できるカスタム名前空間とスキーマをサポートする、より拡張可能で標準化されたアプローチを提供します。コンテンツ管理システムとの統合には、通常、ドキュメントコレクションからメタデータを抽出するバッチ処理と、ドキュメントが追加、変更、または削除されるときにインデックスを同期して維持することが含まれます。

関連用語

  • XMP(Extensible Metadata Platform) – PDFおよびその他のファイル形式に構造化メタデータを埋め込むためのAdobeの標準
  • 文書情報辞書 – タイトル、著者、キーワードなどの基本プロパティを含む従来のPDFメタデータ構造
  • 全文検索 – PDFドキュメント内の実際のコンテンツをインデックス化してクエリする検索メカニズム
  • Tagged PDF – セマンティックマークアップとアクセシビリティ情報を含むPDF構造。検索可能なメタデータを含む場合がある
  • ドキュメントプロパティ – PDFファイルに関連付けられたメタデータフィールドと属性のコレクション

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/