このPDFドキュメントには構造化されたテキストコンテンツが含まれていますか?
ファイルによって異なります。
構造化されたPDFファイル(タグ付きPDF)を作成することは可能であり、これにはページ構造に関する情報が含まれています。一方、構造情報を含まない非構造化PDFファイルもあり、この場合コンテンツは任意の順序で配置されます。これはPDFが作成される際に決まるため、非構造化PDFファイルを構造化PDFファイルに変換することはできません。
PDFファイルに構造化されたコンテンツが含まれているかどうかは、Adobe Readerでファイルを開き、ドキュメントのプロパティを表示することで確認できます。詳細設定に「タグ付きPDF」という項目があります。この値が「はい」の場合、ファイルには構造化されたコンテンツが含まれています。
AcrobatでPDFファイルに構造化されたコンテンツが含まれているかどうかを確認する方法について、より詳しい情報を記載した記事が弊社ブログ にあります。
PdfUtilitiesクラス には、PDFファイルがPDF仕様に従って完全にタグ付けされているかどうかをテストするメソッドも含まれています。
