任意のPDFファイルからドキュメントのアウトラインを抽出する
JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかの方法を提供しています。PDFファイルには、オプションでドキュメントアウトラインオブジェクトを含めることができます。これは、タイトルやページへのリンク、ズームや表示する正確な領域の制御を含む目次です。このアウトラインが存在する場合、このコードはアウトラインデータオブジェクトをXMLファイルに抽出します。この場合、ファイルからドキュメントのアウトラインを抽出できます。アウトラインが存在しない場合、ファイルは作成されません。
java -jar jpedal.jar --metadata "inputFile.pdf" outline
これにより、アウトラインデータがJSON オブジェクト文字列としてコンソールに出力されます。
ExtractOutline extract = new ExtractOutline("inputFile.pdf");
//extract.setPassword("password");
if (extract.openPDFFile()) {
Document pdfOutline = extract.getPDFTextOutline();
}
extract.closePDFfile();
ExtractOutline.writeAllOutlinesToDir("inputFileOrFolder", "outputFolder");
この例では、JPedalのExtractOutline クラスを使用しています。ExtractOutlineは、タイトル、ページ、初期ズームレベルなど、アウトラインエントリに関するさまざまな詳細を含むXMLファイルをPDFごとに出力します。
