Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

PDF viewer search

PDF viewerの検索機能とは、viewerアプリケーションまたはWebブラウザで表示されているPDF文書内の特定のテキストコンテンツをユーザーが検索できる機能を指します。

キーワード: pdf viewer search, PDF viewer search

概要

PDF viewerの検索機能とは、viewerアプリケーションまたはWebブラウザで表示されているPDF文書内の特定のテキストコンテンツをユーザーが検索できる機能を指します。この機能は、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているPDF構造内でテキストコンテンツが適切にエンコードされ、アクセス可能であることに依存しています。検索機能は、特に大規模または複雑な文書を迅速にナビゲートする必要があるユーザー向けのアプリケーションにおいて、文書のアクセシビリティと使いやすさにとって重要な機能です。

定義

PDF viewerの検索機能は、レンダリングされたPDF文書内でテキスト文字列を検索し、特定できるクライアント側の機能です。文書リポジトリ全体を対象とする全文インデックスシステムとは異なり、viewer検索は現在メモリに読み込まれている文書に対して動作し、PDFのcontent streamから抽出されたテキストコンテンツをスキャンします。検索機能は通常、大文字小文字を区別した一致、単語全体の検索、検索結果の前方/後方ナビゲーションなどのオプションを提供します。検索の有効性は、PDFが単なるテキストの画像ではなく、実際のテキストデータ(text objectまたはOCRによる)を含んでいるかどうかに大きく依存します。 ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で説明されているTagged PDFを含む適切な構造を持つPDFの場合、検索はより意味的に認識でき、結果に対してより良いコンテキストを提供できます。

重要性

PDF viewerアプリケーションを構築する開発者や、WebアプリケーションにPDF機能を統合する開発者にとって、堅牢な検索機能の実装は、ユーザーの生産性とアクセシビリティ準拠にとって不可欠です。ユーザーは文書内の情報を迅速に見つけることを期待しており、検索機能は長文の技術文書、法律契約書、研究論文を扱う際の効率性に直接影響します。アクセシビリティの観点から、 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で参照されているように、検索機能は支援技術に依存するユーザーにとって特に重要です。これは視覚的なスキャンに代わるナビゲーション方法を提供するためです。検索実装が不十分な場合、アクセシブルな文書であっても使用が困難になる可能性がありますが、適切なテキスト抽出とUnicodeマッピングを備えた優れた検索実装により、PDFの作成方法や埋め込みフォントに関係なく、ユーザーが確実にコンテンツを見つけられるようになります。

仕組み

PDF viewerの検索は、text object、配置、書式設定を定義するオペレーターとオペランドを含むPDFのcontent streamからテキストコンテンツを抽出することで動作します。ユーザーが検索を開始すると、viewerはテキスト抽出データ(文字位置とページ位置を維持)を解析し、クエリに対して文字列マッチングを実行します。viewerは、文字エンコーディングマッピング(特にカスタムフォントまたは埋め込みフォント)、テキストレンダリングモード、ページ上の物理的な表示順序とは異なる可能性がある論理的な読み順など、さまざまな複雑性を処理する必要があります。で概説されているように、Tagged PDFの場合、structure treeは文書階層と要素の関係を理解することで検索を強化できる追加のセマンティック情報を提供します。最近の実装では、インクリメンタル検索(ユーザーが入力する際に結果を表示)、現在のページ上のすべての一致のハイライト表示、結果カウントとナビゲーションコントロールの提供を行うことがよくあります。Webベースのviewerは、ブラウザAPIまたはJavaScriptライブラリを活用して検索を実装する場合があり、ネイティブアプリケーションは通常、大規模な文書でのパフォーマンスに最適化されたプラットフォーム固有のテキスト検索アルゴリズムを使用します。

関連用語

  • Text extraction(テキスト抽出) – 検索およびその他のテキスト操作のために、PDFのcontent streamから文字データと文字列を取得するプロセス
  • Tagged PDF – コンテンツのアクセシビリティを向上させ、よりインテリジェントな検索機能を可能にする構造マークアップを持つPDF
  • Content stream – text objectを含む、ページの視覚的外観を定義する命令とデータを含むPDFの部分
  • OCR (Optical Character Recognition)(光学文字認識) – テキストの画像をPDF内の検索可能で機械可読なテキストデータに変換する技術
  • Reading order(読み順) – テキストコンテンツが処理されるべき論理的な順序で、検索結果の表示とアクセシビリティに影響を与える

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html