Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

cURLを使用してPDFからテキストを抽出する

目次

  1. はじめに
  2. 前提条件
  3. コード例
  4. コールバックURLに結果を返す
  5. 設定オプション
  6. URLによるアップロード
  7. 認証の使用
  8. 詳細情報

はじめに

以下のチュートリアルでは、ホストされたJPedalクラウドAPIを使用してPDFからテキストを抽出する方法を説明します。独自のセルフホスト型JPedalマイクロサービス をセットアップすることができます。
以下の例では、URLとして https://my-self-hosted-service.com/JPedal を使用しますが、これをセルフホスト型サービスのURLに置き換えてください。

上記のサービスには、REST API を使用してcURLでアクセスできます。

前提条件

開始する前に、cURLがインストールされていることを確認する必要があります。セットアップはオペレーティングシステムによって異なります。詳細はcURLのウェブサイト をご覧ください。

コード例

以下は、PDFからテキストを抽出するための基本的なコード例です。
fileエントリは、’@‘の後にファイルへのパス(絶対パスまたは相対パス)を続ける必要があることに注意してください。
設定オプションと高度な機能については、以下をご覧ください。

curl -X POST -F input="upload" -F file="@/path/to/file/myfile.pdf" -F settings="{\"mode\":\"convertToImages\",\"format\":\"png\"}" https://my-self-hosted-service.com/jpedal

注意:settingsの形式は、使用しているプラットフォームによって異なります。以下の設定オプションをご覧ください。

レスポンスはJSON形式で、uuidが含まれます。

 {"uuid" : "aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa"}

これを使用して、抽出の進行状況をポーリングし、抽出が完了したら出力のURLを取得できます。

curl https://my-self-hosted-service.com/jpedal?uuid=aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa

レスポンスはJSON形式で、以下の詳細が提供されます。

 {
     "state" : "processed", 
     "downloadUrl" : "output/aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa/myfile.zip",
     "previewUrl" : "output/aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa/myfile/index.html"
 }

previewURLを使用して、ブラウザで出力をプレビューできます。

また、ダウンロードURLを使用して変換された出力をダウンロードすることもできます。これは以下のcURLリクエストで実行できます。

# ファイルを現在のディレクトリに元の名前でダウンロードします(この場合は "myfile.zip")
curl https://my-self-hosted-service.com/jpedal/output/aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa/myfile.zip -LO --output "output.zip"

コールバックURLに結果を返す

JPedal Microserviceは、抽出完了時に抽出のステータス を送信するためのコールバックURLを受け付けます。コールバックURLを使用することで、抽出の完了を判断するためにサービスをポーリングする必要がなくなります。
コールバックURLは以下のように提供できます。

curl -X POST -F input="upload" -F callbackUrl="http://listener.url" -F file="@/path/to/file/myfile.pdf" -F settings="{\"mode\":\"convertToImages\",\"format\":\"png\"}" https://my-self-hosted-service.com/jpedal

設定オプション

JPedal APIは、抽出をカスタマイズするためのキーと値のペアの設定オプションを含む、文字列化されたJSONオブジェクトを受け付けます。設定は、cURLコマンドのURLの前に追加する必要があります。PDFからテキストを抽出するための設定オプションの完全なリストはこちら をご覧ください。

二重引用符をエスケープする構文は使用する環境によって異なる場合がある ことに注意してください。特定の環境で機能するものを必ず確認してください。

PowerShellの場合は、解析エラーを避けるために、コマンドを curl.exe --% で開始する必要があります。

URLによるアップロード

ローカルファイルをアップロードするだけでなく、JPedal Microserviceがダウンロードして抽出を実行するURLを提供することもできます。これを行うには、inputとfileの値を以下のように置き換える必要があります。

-F input=download -F url="http://exampleURL/exampleFile.pdf"

認証の使用

PDFからテキストを抽出するためにユーザー名とパスワードが必要な独自のJPedal Microserviceをデプロイした場合、各変換時にそれらを提供する必要があります。これらは、URLの前にユーザー名とパスワードを含むuserフラグを追加することで提供されます。

--user username:password

詳細情報

公式cURLウェブサイト
JPedal Microservice API
JPedal Microserviceの使用