任意のPDFファイルからページ上の単語を抽出する

JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかのメソッドを提供しています。この例では、ファイルから単語とその座標を個別に抽出することができます。

コマンドラインまたは他の言語からPDFの単語を抽出する

java --module-path . --add-modules com.idrsolutions.jpedal org/jpedal/examples/text/ExtractTextAsWordlist "inputFileOrFolder" "outputFolder"

モジュールの使用を推奨しますが、必要に応じてクラスパスを使用することもできます。

APIメソッドにアクセスする例

ExtractTextAsWordlist extract = new ExtractTextAsWordlist("inputFile.pdf");
//extract.setPassword("password");
if (extract.openPDFFile()) {
    int pageCount = extract.getPageCount();
    for (int page = 1; page <= pageCount; page++) {
        List wordList = extract.getWordsOnPage(page);
    }
}

extract.closePDFfile();

JavaでPDFから単語を抽出する

ExtractTextAsWordList.writeAllWordlistsToDir("inputFileOrFolder", "outputFolder", -1);

この例では、JPedalのExtractTextAsWordlist クラスを使用しています。ExtractTestAsWordlistは、ページごとにtxtファイルを出力し、各ファイルの各行は、単語、x1、y1、x2、y2の値を含むカンマ区切りの文字列として座標を表します。

使用される座標

戻り値で使用される座標は、x1、y1、x2、y2として定義された4つの値で表され、これらはPDFページ上の左、上、右、下の値を示します。PDFページでは、原点はページの左下隅にあります。