search.json(検索用JSON)
search.jsonは、BuildVuがPDF変換時に自動生成するインデックスファイルで、すべてのページをメモリに読み込むことなく、変換されたドキュメント全体で全文検索機能を実現します。
search.jsonは、BuildVuがPDF変換時に自動生成するインデックスファイルで、すべてのページをメモリに読み込むことなく、変換されたドキュメント全体で全文検索機能を実現します。このJSON形式のファイルには、ソースPDFドキュメントから抽出されたインデックス化されたコンテンツとメタデータが含まれ、利用可能な場合はTagged PDF構造からのテキストも含まれます。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) はPDFドキュメントの内部構造を定義していますが、search.jsonはWebベースのPDFビューアアプリケーション専用に最適化された検索インデックスとして機能します。
search.jsonは、BuildVuがPDFからHTML5への変換プロセスの一部として作成する構造化されたJSONファイルです。このファイルには、PDFから抽出されたすべてのテキストコンテンツの検索可能なインデックスが含まれ、個々のページリソースを読み込むことなく高速なキーワード検索を可能にする形式で整理されています。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されたドキュメント構造全体にアクセスする必要がある従来のPDF検索方法とは異なり、search.jsonはWebアプリケーション向けに最適化された、事前処理済みの軽量なインデックスを提供します。
このファイルには通常、以下の情報が含まれます:
- すべてのページからのインデックス化されたテキストコンテンツ
- 単語の位置とページ参照
- 高速検索操作用のメタデータ
- Tagged PDFが存在する場合、オプションの構造情報
これは、クライアント側またはサーバー側のWebアプリケーションで、PDF構造全体を読み込むと非効率的な場合に特化して設計されている点で、PDFのネイティブなテキスト抽出機能とは異なります。
WebアプリケーションでPDF閲覧ソリューションを実装する開発者にとって、search.jsonは以下のようなパフォーマンスとユーザーエクスペリエンスの大きな利点を提供します:
パフォーマンスの最適化:search.jsonを使用することで、変換されたすべてのページリソースを読み込むことなく検索操作を完了でき、大規模なドキュメントにおいて帯域幅の使用量を大幅に削減し、応答時間を改善できます。
ユーザーエクスペリエンス:エンドユーザーは、ページごとの読み込みと検索を待つことなく、複数ページのドキュメントを瞬時に検索でき、結果が即座に表示されます。
リソース効率:インデックスファイルはすべてのページリソースを読み込むよりもはるかに小さく、モバイルデバイスや帯域幅に制約のある環境でも実用的です。
アクセシビリティの向上:で説明されているように、ソースPDFにTagged PDF構造が含まれている場合、search.jsonは検索の関連性とコンテキストを改善するセマンティックな関係を保持できます。
BuildVuは、PDF変換プロセス中に以下のワークフローでsearch.jsonを生成します:
テキスト抽出:BuildVuはPDFドキュメントから検索可能なすべてのテキストを抽出します。これには、コンテンツストリームからのテキストや、利用可能な場合は ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で定義されているTagged PDF要素からの構造化コンテンツが含まれます。
インデックス化:抽出されたテキストは検索可能なインデックス構造に処理され、各単語やフレーズがその位置(ページ番号と位置)にマッピングされます。
JSONシリアライゼーション:インデックスデータは、JavaScriptまたはサーバー側コードによる高速な解析と検索に最適化されたスキーマでJSON形式にシリアライズされます。
統合:変換されたHTML5出力には、search.jsonを読み込んでクエリを実行するJavaScriptコードが含まれ、ビューアインターフェースで検索機能を実現します。
ユーザーが検索を実行すると:
- ビューアアプリケーションがsearch.jsonを読み込みます(通常、初回読み込み後はキャッシュされます)
- 検索クエリがインデックスと照合されます
- ページ参照付きで結果が返されます
- 一致するページのみが表示のために読み込まれます
ファイル構造は、完全性とファイルサイズのバランスを考慮して設計されており、高速な読み込み時間を維持しながら検索精度を確保します。
- BuildVu – search.jsonファイルを生成するIDRのPDFからHTML5へのコンバーター
- Tagged PDF – アクセシビリティとコンテンツ抽出のためのセマンティック情報を含むPDF構造
- コンテンツストリーム – ページの実際のテキストとグラフィックス命令を含むPDF構造
- 全文検索 – 包括的なクエリのためにドキュメント内のすべての単語をインデックス化する検索機能
- JSONインデックス – 効率的な検索とデータ取得のために使用される構造化データ形式
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
