Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

PDF to HTML conversion

PDF to HTML変換は、PDFページのコンテンツ、レイアウト、スタイリングをWebブラウザ互換のHTMLおよびCSSマークアップに変換するプロセスです。

キーワード: pdf to html conversion, PDF to HTML conversion

概要

PDF to HTML変換は、PDFページのコンテンツ、レイアウト、スタイリングをWebブラウザ互換のHTMLおよびCSSマークアップに変換するプロセスです。この変換により、プラグインを必要とせずにPDF文書をWebブラウザで直接表示できるようになり、元の文書の視覚的外観を可能な限り保持します。この変換の複雑さは、ソースPDFがtagged PDF ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) のような構造化コンテンツを使用しているかどうかに大きく依存します。tagged PDFは文書要素に関する意味情報を提供します。

定義

PDF to HTML変換は、PDF文書からテキスト、グラフィックス、フォント、レイアウト情報を抽出し、HTML要素とCSSポジショニングを使用して再構築するプロセスです。単純なテキスト抽出は文字データのみを取得しますが、HTML変換は文書の視覚的レイアウト、タイポグラフィ、書式設定を保持しようとします。変換では通常、元のPDFの外観に一致させるために、絶対配置または相対配置のCSSポジショニングを使用して配置されたテキスト要素が生成されます。

これは、PDFをネイティブにレンダリングするブラウザプラグインでのPDF表示や、レスポンシブWebデザインとは異なります。変換されたHTMLは通常、PDFの静的なページレイアウトを反映した固定配置を維持するためです。変換プロセスでは、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているPDFのコンテンツストリーム、フォント定義、グラフィックスオペレーターを解釈し、対応するWeb技術に変換する必要があります。

重要性

Web開発者やIT専門家にとって、PDF to HTML変換はいくつかの重要な課題を解決します。検索エンジンによるPDFコンテンツのインデックス作成をより効果的にし、PDF/UA ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準に従ったソース文書の場合はスクリーンリーダーのアクセシビリティを向上させ、エンドユーザーがファイルをダウンロードしたりPDFリーダーソフトウェアをインストールしたりすることなく、PDFコンテンツをWebアプリケーションにシームレスに統合できるようにします。

HTML変換により、レスポンシブ対応、モバイルデバイスでのテキストリフロー、Webベースの編集や注釈ツールとの統合も可能になります。大規模なPDF文書リポジトリを持つ組織にとって、HTML変換は、ブラウザでの即座の表示を提供し、完全なPDFファイルを提供する場合と比較して帯域幅要件を削減することで、ユーザーエクスペリエンスを向上させることができます。

仕組み

PDF to HTML変換プロセスは、通常次の段階で進行します。

  1. コンテンツストリームの解析: コンバーターはPDFのコンテンツストリームを読み取ります。コンテンツストリームには、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で規定されているテキストの配置、フォント選択、グラフィックス描画コマンドを記述するオペレーターが含まれています。

  2. テキスト抽出と配置: テキストオブジェクトがページ上の絶対座標とともに抽出されます。文字間隔、単語間隔、テキストマトリックスが計算され、正確な配置が決定されます。

  3. フォント処理: コンバーターは埋め込みフォントを処理し、フォント特性を識別して、Webフォントの埋め込み、フォント置換の使用、または複雑なタイポグラフィのためのテキストのSVGパスへの変換を行う必要があります。

  4. レイアウトの再構築: 元のレイアウトを複製するために、CSSポジショニング(絶対配置または相対配置)を使用してHTML要素(通常は<div>または<span>タグ)が作成されます。テキストブロックは、近接性と読み順に基づいてグループ化される場合があります。

  5. 構造マッピング: PDFにtagged contentが含まれている場合、PDF構造要素を適切なHTML5セマンティックタグ(見出し、段落、リスト、テーブル)にマッピングすることで、セマンティック構造を保持できます。

  6. グラフィックスと画像: ベクターグラフィックスはSVGまたはCSSに変換され、ラスター画像は抽出されて<img>タグまたはCSS背景として埋め込まれます。

生成されるHTMLには通常、各テキスト要素の正確な配置、フォントプロパティ、色、寸法を定義する広範なインラインCSSまたは別個のスタイルシートが含まれます。

関連用語

  • Tagged PDF – 正確なセマンティックHTML変換を容易にする論理構造情報を含むPDF文書
  • Text Extraction – レイアウトや書式設定を保持せずにPDFから文字データを取得するプロセス
  • PDF Rendering – PDFページをラスター画像に変換したり、ネイティブPDFビューアーで表示したりすること
  • Content Stream – 描画およびテキスト描画オペレーターを含むPDFファイルの部分
  • PDF/UA – 支援技術向けのHTML変換の品質を向上させる、アクセシブルなPDF文書のISO標準

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html