BuildVuに最適なPDFファイルとは?
BuildVuは、あらゆる有効なPDFファイルを処理できるように設計されており、特定の種類のPDFファイルに偏ることはありません。とはいえ、PDFファイルの品質はさまざまであり、BuildVuは与えられたデータでしか動作できません。一般的に、ゴミを入れればゴミが出てくるということです!
PDFの作成をコントロールできる場合、コンテンツを将来にわたって有効にし、BuildVuを最大限に活用するためにできることがいくつかあります:
- PDFを圧縮するツールや設定を避ける
- フォントを埋め込む
- マーク付き/タグ付き/構造化コンテンツを有効にする
- PDF/Aとしてファイルを作成する
PDFファイルを圧縮するツールは、ファイルサイズをどれだけ削減できるかで評価され、多くの場合、後で問題を引き起こす可能性のある重要な情報を削除することでこれを達成しています。圧縮されたPDFは、見た目は「問題ない」ように見えることが多いですが、内部では別の話になっていることがあります。
私たちがこれまでに見てきた、圧縮されたPDFファイルに起因する問題の例には、以下のようなものがあります:
- 文字マッピングの削除によるテキスト抽出の破損
- 画像がタイル化されることによる画像内の小さな白い線の出現
- フォント内の幅データの削除によるテキスト出力の断片化
- 画像の過度な圧縮による画質の低下
圧縮されたPDFファイルは、BuildVuが生成するファイルサイズにほとんど影響を与えないため、可能であればそのようなツールや設定を避けることを一般的に推奨しています。
PDFファイルは、PDF内にフォントを埋め込む代わりに、ローカルファイルシステムに保存されているフォントに依存するように作成できます。
この場合、BuildVuは埋め込まれていないフォントをオープンソースの代替フォントで置き換えます。外観を正確に保つために、可能な限りすべてのフォントを埋め込むことをお勧めします。
標準のPDFファイルには、構造情報(段落、見出しなど)は含まれていません。マーク付きコンテンツは、PDFファイル内のコンテンツに追加の構造情報でタグを付けるためのオプション機能です。私たちが見るほとんどのPDFファイルにはこれが含まれていませんが、PDFの作成をコントロールできる場合は、有効にすることを強くお勧めします。
BuildVuは現在マーク付きコンテンツを使用していませんが、将来的には利用可能な場合により有効に活用できるかどうかを調査する予定です。
PDFは非常に強力なファイル形式であり、大きな力には大きな責任が伴います。すべてのPDF作成ツールが同等というわけではなく、他のツールよりも優れた仕事をするものもあります。HTMLパーサーと同様に、PDFパーサーは仕様に完全に準拠していないドキュメントを処理することが期待されています。私たちは、PDF仕様の疑わしい解釈を持つドキュメントを処理するために、パーサーを調整することがよくあります。
ここでPDF/Aの登場です:PDF/Aは、より現代的で厳格なバージョンの仕様であり、コンテンツ抽出やドキュメントのアクセシビリティに関連する情報をドキュメントが保持することを保証する規定が含まれています。これは、主に印刷形式であった元のPDF仕様の意図を超えています。
使用しているツールにPDF/Aを有効にするオプションがある場合は、有効にすることを強くお勧めします!
