テキストの抽出

このセクションの内容

ページ

Apache Tikaを使用したテキスト抽出
v2023.05 JPedalはApache TikaのParserインターフェースと互換性があるため、既存のTikaアプリケーションでそのまま置き換えて使用することができます。現在、構造化テキストと非構造化テキストの両方をサポートしています。使用例 try (final …
PDFファイルから矩形を使用して非構造化テキストを抽出する
構造化PDFファイルと非構造化PDFファイル構造化PDFファイル（ページ構造に関する情報を含む）または非構造化PDFファイル（構造情報を含まず、コンテンツが任意の順序で配置されている）を作成することができます。これはPDFが作成される際に決まるもので、非構造化PDFファイルを …
構造化PDFファイルから構造化コンテンツを抽出する
構造化PDFファイルと非構造化PDFファイル構造化PDFファイル（ページ構造に関する情報を含む）または非構造化PDFファイル（構造情報を含まず、コンテンツが任意の順序で配置される）を作成することができます。これはPDFが作成される際に決まるため、非構造化PDFファイルを構造化 …
構造化テキストをePUBとして抽出する
v2025.04 構造化テキスト（マークされたコンテンツまたはタグ付きPDFとも呼ばれます）を含むPDFファイルは、JPedalで処理してePUBファイル形式に変換できます。タグ付きPDFをePUBに変換するには final String password = null; …
任意のPDFファイルからページ上の単語を抽出する
JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかのメソッドを提供しています。この例では、ファイルから単語とその座標を個別に抽出することができます。コマンドラインまたは他の言語からPDFの単語を抽出する java --module-path . …
任意のPDFファイルからドキュメントのアウトラインを抽出する
JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかの方法を提供しています。PDFファイルには、オプションでドキュメントアウトラインオブジェクトを含めることができます。これは、タイトルやページへのリンク、ズームや表示する正確な領域の制御を含む目次です。この …