Text mode (HTML output)
Text modeは、PDFファイルからのテキストコンテンツをHTML出力でどのようにレンダリングするかを決定するBuildVuの設定オプションです。
Text modeは、PDFファイルからのテキストコンテンツをHTML出力でどのようにレンダリングするかを決定するBuildVuの設定オプションです。有効にすると、text modeはテキストを選択可能なHTMLテキスト要素として保持し、アクセシビリティと検索性を維持します。無効にすると、テキストは画像に変換されます。これは、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準で求められるアクセシビリティ機能を犠牲にして、正確な視覚的外観を保持する必要がある場合に望ましい方法です。
BuildVuにおけるtext modeは、PDF-to-HTML変換時のテキストコンテンツの変換戦略を制御するブール値設定です。text modeが有効(デフォルトおよび推奨設定)の場合、BuildVuはPDF文書構造からテキストを抽出し、CSSを使用して配置とスタイリングを行いながら、ネイティブHTMLテキスト要素としてレンダリングします。このアプローチは、基盤となるテキストデータを保持し、選択、検索、およびスクリーンリーダーによるアクセスを可能にします。
text modeが無効の場合、BuildVuはテキストコンテンツを画像ファイルにラスタライズし、文字データではなくグラフィカル要素として扱います。この画像ベースのアプローチは、WebフォントとCSSで再現することが難しい複雑なタイポグラフィ、特殊フォント、または独特なテキストレンダリング効果をピクセル単位で完全に再現できます。ただし、テキストの意味的な意味と対話的プロパティは失われます。
これはとは異なります。Tagged PDFはPDF自体の論理構造を定義するものであり、text modeは特にそのコンテンツをHTML出力形式でどのように表現するかに影響する変換オプションです。
PDF表示ソリューションを実装する開発者にとって、text mode設定はユーザーエクスペリエンス、アクセシビリティコンプライアンス、およびアプリケーション機能に大きな影響を与えます。アクセシビリティが要件である場合、text modeを有効にすることは不可欠です。これにより、支援技術がコンテンツを読み取りナビゲートできるようになり、PDF/UA ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などのアクセシビリティ標準への準拠をサポートします。
text modeはファイルサイズとパフォーマンスにも影響します。HTMLテキストは通常、画像表現よりもコンパクトで、ブラウザでより高速にレンダリングされます。さらに、選択可能なテキストにより、ユーザーはコンテンツをコピーし、ブラウザの検索機能を使用し、画像ベースのレンダリングでは不可能な方法で文書を操作できます。
開発者は、これらの利点と、視覚的な忠実性が最優先されるシナリオとのバランスを取る必要があります。法的文書、証明書、または正確なフォントレンダリングが重要なデザインで、ソースPDFがWeb環境で正確に再現することが難しいカスタムフォントや埋め込みフォントを使用している場合などです。
text modeが有効な場合、BuildVuは変換中に以下の操作を実行します。
テキスト抽出: BuildVuは ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているPDF構造からテキストコンテンツを読み取り、文字コード、位置情報、およびフォント参照を抽出します。
フォントマッピング: コンバータはPDFフォントをWebセーフフォントにマッピングするか、埋め込みフォントをHTML出力で使用するためのWebフォント形式(WOFF/WOFF2)に変換します。
レイアウト計算: BuildVuはテキスト要素の正確な配置を計算し、絶対配置または相対配置を使用してPDFレイアウトを再現するためのCSSルールを生成します。
HTML生成: テキストはHTML要素(通常は
<span>または<div>タグ)として関連するCSSスタイリングとともにレンダリングされ、文字レベルの配置を保持しながら、テキストを選択可能なコンテンツとして維持します。
text modeが無効な場合、BuildVuはテキスト領域をPNGまたはSVG画像にラスタライズし、適切な配置でHTML出力に埋め込みます。これにより、フォントとレイアウトの複雑さは回避されますが、セマンティックなテキストコンテンツを持たない純粋に視覚的な表現が作成されます。
- Tagged PDF – 文書コンテンツに関するセマンティック情報を含むPDF構造で、より良いアクセシビリティとコンテンツのリフローを可能にします
- PDF to HTML conversion – Web表示のためにPDF文書をHTML形式に変換するプロセス
- Web fonts – カスタムタイポグラフィを表示するためにWebブラウザで使用するためにフォーマットされたフォントファイル(WOFF、WOFF2、TTF)
- Accessibility – 障害を持つ人々がデジタルコンテンツを使用できるようにする実践で、多くの場合、選択可能なテキストが必要です
- Content extraction – 再利用または変換のためにPDFファイルからテキスト、画像、およびその他のデータを取得するプロセス
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
