PDFファイルからページ上の単語を抽出する

JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかのメソッドを提供しています。このケースでは、ファイルから単語単位とその座標を抽出することができます。

コマンドラインまたは他の言語からPDFの単語を抽出する

java --module-path . --add-modules com.idrsolutions.jpedal org/jpedal/examples/text/ExtractTextAsWordlist "inputFileOrFolder" "outputFolder"

モジュールの使用を推奨していますが、必要に応じてclasspathを使用することもできます。

APIメソッドにアクセスする例

ExtractTextAsWordlist extract = new ExtractTextAsWordlist("inputFile.pdf");
//extract.setPassword("password");
if (extract.openPDFFile()) {
    int pageCount = extract.getPageCount();
    for (int page = 1; page <= pageCount; page++) {
        List wordList = extract.getWordsOnPage(page);
    }
}

extract.closePDFfile();

JavaでPDFから単語を抽出する

ExtractTextAsWordList.writeAllWordlistsToDir("inputFileOrFolder", "outputFolder", -1);

この例では、JPedalのExtractTextAsWordlist クラスを使用しています。ExtractTestAsWordlistは、ページごとにtxtファイルを出力し、ファイルの各行は単語とその座標のx1、y1、x2、y2の値を含むカンマ区切りの文字列になります。

使用される座標

戻り値で使用される座標は、x1、y1、x2、y2として定義される4つの値によって定義されます。これらはPDFページ上の左、上、右、下の値を表します。PDFページでは、原点はページの左下隅にあります。