PDFファイルからページ上の単語を抽出する
JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかのメソッドを提供しています。このケースでは、ファイルから単語単位とその座標を抽出することができます。
java --module-path . --add-modules com.idrsolutions.jpedal org/jpedal/examples/text/ExtractTextAsWordlist "inputFileOrFolder" "outputFolder"
モジュールの使用を推奨していますが、必要に応じてclasspathを使用する こともできます。
ExtractTextAsWordlist extract = new ExtractTextAsWordlist("inputFile.pdf");
//extract.setPassword("password");
if (extract.openPDFFile()) {
int pageCount = extract.getPageCount();
for (int page = 1; page <= pageCount; page++) {
List wordList = extract.getWordsOnPage(page);
}
}
extract.closePDFfile();
ExtractTextAsWordList.writeAllWordlistsToDir("inputFileOrFolder", "outputFolder", -1);
この例では、JPedalのExtractTextAsWordlist クラスを使用しています。ExtractTestAsWordlistは、ページごとにtxtファイルを出力し、ファイルの各行は単語とその座標のx1、y1、x2、y2の値を含むカンマ区切りの文字列になります。
戻り値で使用される座標は、x1、y1、x2、y2として定義される4つの値によって定義されます。これらはPDFページ上の左、上、右、下の値を表します。PDFページでは、原点はページの左下隅にあります。
