テキスト

このセクションの内容

サブセクション

テキスト抽出 Web サービス API

ページ

テキスト抽出 Web サービス API
PDFファイル内のテキストを検索する
JPedalは、PDF内のテキストを検索し、見つかった結果の座標を出力するシンプルなクラスを提供します。この検索は、簡易的な便利メソッドを使用するか、より詳細なアプローチでより高度な制御を行うかのいずれかの方法で実行できます。便利な静的メソッド String pdfFile …
PDFにアウトラインを追加する
PDFアウトライン（ブックマークとも呼ばれます）を使用すると、目次ページと同様に、ユーザーはドキュメント内を移動できます。アウトラインの追加はプログラムで行うことができます。アウトラインのコピーは、プログラムまたはコマンドラインから行うことができます。 PDFファイルにアウトラ …
Apache Tikaを使用したテキスト抽出
v2023.05 JPedalはApache TikaのParserインターフェースに対応しており、既存のTikaアプリケーションでそのまま置き換えて使用することができます。現在、構造化テキストと非構造化テキストの両方をサポートしています。使用例 try (final …
PDFファイルからページ上の単語を抽出する
JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかのメソッドを提供しています。このケースでは、ファイルから単語単位とその座標を抽出することができます。コマンドラインまたは他の言語からPDFの単語を抽出する java --module-path . …
PDFファイルから矩形を使用して非構造化テキストを抽出する
構造化PDFファイルと非構造化PDFファイル構造化PDFファイル（ページ構造に関する情報を含む）または非構造化PDFファイル（構造情報を含まず、コンテンツが任意の順序で配置されている）を作成することが可能です。これはPDFが作成される際に決定され、非構造化PDFファイルを構造 …
構造化PDFファイルから構造化コンテンツを抽出する
構造化PDFファイルと非構造化PDFファイル構造化PDFファイル（ページ構造に関する情報を含む）または非構造化PDFファイル（構造情報を含まず、コンテンツが任意の順序で配置される）を作成することができます。これはPDFが作成される際に決定されるため、非構造化PDFファイルを構 …
構造化テキストをePUBとして抽出する
v2025.04 構造化テキスト（マークされたコンテンツやタグ付きPDFとも呼ばれる）を含むPDFファイルは、JPedalで処理してePUBファイル形式に変換できます。タグ付きPDFをePUBに変換するには final String password = null; …
任意のPDFファイルからドキュメントアウトラインを抽出する
JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかのメソッドを提供しています。PDFファイルには、オプションでドキュメントアウトラインオブジェクトを含めることができます。これは、タイトルを含み、ズームや表示する正確な領域を制御しながらページへのリンクを持 …
JPedalはテーブル構造を保持しますか？
当社のソフトウェアは、元のPDFファイルのPDF構造内でテーブルが定義されている場合、構造化されたテーブルを抽出します。 PDFドキュメント内でテーブルのように見えていても、実際には図形、非構造化テキスト、およびその他のコンテンツタイプがテーブルのような外観を与えるように配置され …
JPedalはレスポンシブHTMLを生成しますか？
JPedalは、PDFファイルに構造化されたコンテンツが含まれている限り、レスポンシブHTMLを生成します。構造化されたPDFファイルをHTMLに変換する方法を学ぶタグ付きPDFファイルについて詳しく学ぶ
このPDFドキュメントには構造化されたテキストコンテンツが含まれていますか？
ファイルによって異なります。構造化されたPDFファイル（タグ付きPDF）を作成することは可能であり、これにはページ構造に関する情報が含まれています。一方、構造情報を含まない非構造化PDFファイルもあり、この場合コンテンツは任意の順序で配置されます。これはPDFが作成される際に決 …
検索と抽出のファイルエンコーディングを変更する方法
Javaは異なるエンコーディングでテキストを出力することができます。場合によっては、ページ上で表示されるテキストが抽出後に見えるテキストと一致しないことがあります。最も一般的な原因は、コンテンツがあるエンコーディングで読み込まれているにもかかわらず、別の場所では異なるエンコーディ …