任意のPDFファイルからドキュメントのアウトラインを抽出する

JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかの方法を提供しています。PDFファイルには、オプションでドキュメントアウトラインオブジェクトを含めることができます。これは、タイトルやページへのリンク、ズームや表示する正確な領域の制御を含む目次です。このアウトラインが存在する場合、このコードはアウトラインデータオブジェクトをXMLファイルに抽出します。この場合、ファイルからドキュメントのアウトラインを抽出できます。アウトラインが存在しない場合、ファイルは作成されません。

コマンドラインまたは他の言語からPDFのアウトラインを抽出する

java -jar jpedal.jar --metadata "inputFile.pdf" outline

これにより、アウトラインデータがJSON オブジェクト文字列としてコンソールに出力されます。

API メソッドにアクセスする例

ExtractOutline extract = new ExtractOutline("inputFile.pdf");
//extract.setPassword("password");
if (extract.openPDFFile()) {
    Document pdfOutline = extract.getPDFTextOutline();
}
extract.closePDFfile();

JavaでPDFからアウトラインを抽出する

ExtractOutline.writeAllOutlinesToDir("inputFileOrFolder", "outputFolder");

この例では、JPedalのExtractOutline クラスを使用しています。ExtractOutlineは、タイトル、ページ、初期ズームレベルなど、アウトラインエントリに関するさまざまな詳細を含むXMLファイルをPDFごとに出力します。