任意のPDFファイルからドキュメントアウトラインを抽出する

JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかのメソッドを提供しています。PDFファイルには、オプションでドキュメントアウトラインオブジェクトを含めることができます。これは、タイトルを含み、ズームや表示する正確な領域を制御しながらページへのリンクを持つことができる目次です。これが存在する場合、このコードはアウトラインデータオブジェクトをXMLファイルに抽出します。この場合、ファイルからドキュメントのアウトラインを抽出できます。アウトラインが存在しない場合、ファイルは作成されません。

コマンドラインまたは他の言語からPDFのアウトラインを抽出する

java -jar jpedal.jar --metadata "inputFile.pdf" outline

これにより、アウトラインデータがJSONオブジェクト文字列としてコンソールに出力されます。

APIメソッドにアクセスする例

ExtractOutline extract = new ExtractOutline("inputFile.pdf");
//extract.setPassword("password");
if (extract.openPDFFile()) {
    Document pdfOutline = extract.getPDFTextOutline();
}
extract.closePDFfile();

JavaでPDFからアウトラインを抽出する

ExtractOutline.writeAllOutlinesToDir("inputFileOrFolder", "outputFolder");

この例では、JPedalのExtractOutline クラスを使用しています。ExtractOutlineは、アウトラインエントリに関するタイトル、ページ、初期ズームレベルなどのさまざまな詳細を含むXMLファイルをPDFごとに出力します。