このPDFドキュメントには構造化されたテキストコンテンツが含まれていますか?
ファイルによって異なります。
構造化されたPDFファイル(タグ付きPDF)を作成することは可能です。このファイルにはページ構造に関する情報が含まれています。一方で、構造情報を含まない非構造化PDFファイルを作成することもでき、この場合コンテンツは任意の順序で配置できます。これはPDFが作成される際に決まるもので、非構造化PDFファイルを構造化PDFファイルに変換することはできません。
PDFファイルに構造化されたコンテンツが含まれているかどうかは、Adobe Readerでファイルを開き、ドキュメントのプロパティを表示することで確認できます。「タグ付きPDF」という名前の詳細フィールドがあります。この値が「はい」であれば、そのファイルには構造化されたコンテンツが含まれています。
私たちのブログには、AcrobatでPDFファイルに構造化されたコンテンツが含まれているかどうかを確認する方法 に関する詳細情報を掲載した記事があります。
PdfUtilitiesクラス には、PDFファイルがPDF仕様に従って完全にタグ付けされているかどうかをテストするメソッドも含まれています。
