任意のPDFファイルからページ上の単語を抽出する
JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかのメソッドを提供しています。この例では、ファイルから単語とその座標を個別に抽出することができます。
java --module-path . --add-modules com.idrsolutions.jpedal org/jpedal/examples/text/ExtractTextAsWordlist "inputFileOrFolder" "outputFolder"
モジュールの使用を推奨しますが、必要に応じてクラスパスを使用する こともできます。
ExtractTextAsWordlist extract = new ExtractTextAsWordlist("inputFile.pdf");
//extract.setPassword("password");
if (extract.openPDFFile()) {
int pageCount = extract.getPageCount();
for (int page = 1; page <= pageCount; page++) {
List wordList = extract.getWordsOnPage(page);
}
}
extract.closePDFfile();
ExtractTextAsWordList.writeAllWordlistsToDir("inputFileOrFolder", "outputFolder", -1);
この例では、JPedalのExtractTextAsWordlist クラスを使用しています。ExtractTestAsWordlistは、ページごとにtxtファイルを出力し、各ファイルの各行は、単語、x1、y1、x2、y2の値を含むカンマ区切りの文字列として座標を表します。
戻り値で使用される座標は、x1、y1、x2、y2として定義された4つの値で表され、これらはPDFページ上の左、上、右、下の値を示します。PDFページでは、原点はページの左下隅にあります。
