任意のPDFファイルからドキュメントアウトラインを抽出する
JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかのメソッドを提供しています。PDFファイルには、オプションでドキュメントアウトラインオブジェクトを含めることができます。これは、タイトルを含み、ズームや表示する正確な領域を制御しながらページへのリンクを持つことができる目次です。これが存在する場合、このコードはアウトラインデータオブジェクトをXMLファイルに抽出します。この場合、ファイルからドキュメントのアウトラインを抽出できます。アウトラインが存在しない場合、ファイルは作成されません。
java -jar jpedal.jar --metadata "inputFile.pdf" outline
これにより、アウトラインデータがJSONオブジェクト文字列としてコンソールに出力されます。
ExtractOutline extract = new ExtractOutline("inputFile.pdf");
//extract.setPassword("password");
if (extract.openPDFFile()) {
Document pdfOutline = extract.getPDFTextOutline();
}
extract.closePDFfile();
ExtractOutline.writeAllOutlinesToDir("inputFileOrFolder", "outputFolder");
この例では、JPedalのExtractOutline クラスを使用しています。ExtractOutlineは、アウトラインエントリに関するタイトル、ページ、初期ズームレベルなどのさまざまな詳細を含むXMLファイルをPDFごとに出力します。
