BuildVu workflow
BuildVu workflowは、PDF文書をHTML5またはSVG形式に変換する体系的なプロセスであり、文書構造、レイアウト、インタラクティブ機能を保持します。
BuildVu workflowは、PDF文書をHTML5またはSVG形式に変換する体系的なプロセスであり、文書構造、レイアウト、インタラクティブ機能を保持します。このワークフローは、フォーム、注釈、構造化コンテンツなどの ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 機能を含む複雑なPDFを扱う際に特に重要です。このワークフローにより、プラグインやネイティブPDFビューアを必要とせず、Webブラウザで確実にPDFコンテンツをレンダリングできます。
BuildVu workflowは、BuildVu変換エンジンを使用してPDF文書をWeb対応形式に変換するための完全なパイプラインを表します。単純なPDFレンダリングやラスタライズのアプローチとは異なり、このワークフローはPDFの内部構造をインテリジェントに処理し、ベクターグラフィックス、テキスト、フォント、メタデータを抽出して、スケーラブルで検索可能なHTML5出力を生成します。このワークフローは、レイヤー、透明度、カラースペース、および ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) で定義されているTagged PDF構造など、さまざまなPDFの複雑さに対応します。基本的なPDF-to-image変換とは異なり、文書のセマンティック構造を維持し、結果として生成されるWebコンテンツでテキスト選択、検索、レスポンシブレイアウトなどの機能を可能にします。
PDFコンテンツ配信システムを開発する開発者にとって、BuildVu workflowは、さまざまなデバイスやプラットフォームでPDF文書をアクセシブルかつ使いやすくするための重要な課題を解決します。ブラウザのPDFプラグインへの依存を排除し、異なるブラウザやデバイス間で異なるサポートレベルと機能の問題を解決します。このワークフローは、特に ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 準拠文書を扱う際に、アクセシビリティ基準を維持しながらWeb上でPDFコンテンツを公開する必要がある組織にとって不可欠です。PDFをネイティブWeb形式に変換することで、開発者は生のPDFファイルを提供する場合と比較して、より高速な読み込み時間、優れたモバイル対応性、検索エンジンのインデックス作成の改善を実現できます。
BuildVu workflowは、いくつかの主要な段階で動作します:
PDFの解析と分析:エンジンは ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 仕様に従ってPDFファイル構造を読み取り、解釈し、すべてのコンテンツストリーム、リソース、メタデータを識別します。
コンテンツ抽出:テキスト、ベクターグラフィックス、画像、フォントがPDFから抽出されます。Tagged PDF構造が存在する場合、ワークフローはこのセマンティック情報を活用して出力品質とアクセシビリティを向上させることができます。
レイアウト再構築:ワークフローは位置情報を分析して文書の視覚的レイアウトを再構築し、多段組みテキスト、フローティング要素、レイヤー化されたコンテンツなどの複雑な要素を処理します。
形式変換:抽出されたコンテンツは、スタイリング用のCSSとインタラクティブ機能用のJavaScriptを伴うHTML5マークアップに変換されます。ベクターコンテンツは、インラインSVGまたはHTML Canvas要素としてレンダリングされる場合があります。
出力最適化:最終段階には、フォントのサブセット化、画像圧縮、コードの最小化など、効率的なWeb配信を確保するための最適化ステップが含まれます。
ワークフローは、大規模文書のページごとの変換、カスタムスタイリング、フォームや注釈の特殊な処理など、さまざまな変換オプションを処理するように構成できます。
- Tagged PDF – コンテンツの構成と読み取り順序に関するセマンティック情報を含むPDF文書構造で、アクセシビリティとコンテンツ抽出を向上させます
- PDF parsing(PDF解析) – PDF仕様に従ってPDFファイルの内部構造を読み取り、解釈するプロセス
- HTML5 conversion(HTML5変換) – 文書コンテンツをある形式からHTML5マークアップおよび関連するWeb技術に変換すること
- Vector graphics(ベクターグラフィックス) – 形状の数学的記述によって定義される解像度非依存のグラフィックスで、品質を損なうことなく拡大縮小できます
- Content stream(コンテンツストリーム) – ページ上のコンテンツの外観を記述するPDFファイル内の命令シーケンス
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
