Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

RubyでPDFからテキストを抽出する

目次

  1. はじめに
  2. 前提条件
  3. コード例
  4. コールバックURLに結果を返す
  5. 設定オプション
  6. URLでアップロード
  7. 認証を使用する
  8. 詳細情報

はじめに

次のチュートリアルでは、ホストされたJPedalクラウドAPIを使用してPDFからテキストを抽出する方法を説明します。独自のセルフホスト型JPedalマイクロサービス をセットアップすることも可能です。

上記のサービスは通常のHTTPリクエストでアクセスできますが、このチュートリアルではREST API をシンプルなRubyラッパーで包んだオープンソースのRuby IDRCloudClient を使用します。

前提条件

プロジェクトでIDRCloudClientを使用するには2つのアプローチがあります。

gemを使用して、以下のコマンドでidr_cloud_client gem をインストールします:

gem install idr_cloud_client

または、アプリケーションのgemfileに「gem ‘idr_cloud_client’」という行を追加してから、以下のコマンドを実行することもできます。

bundle install

コード例

PDFからテキストを抽出する基本的なコード例を示します。設定オプションと高度な機能については下記をご覧ください。

require 'idr_cloud_client'

client = IDRCloudClient.new('https://my-self-hosted-service.com/' + IDRCloudClient::JPEDAL)

result = client.convert(
    input: IDRCloudClient::UPLOAD, 
    file: 'path/to/exampleFile.pdf',
    , 
    settings: '{"mode":"extractText","type":"plainText"}')

client.download_result(result, 'path/to/output/dir')

puts 'Download URL: ' + result['downloadUrl']

コールバックURLに結果を返す

JPedalマイクロサービスは、抽出の完了時にステータス を送信するコールバックURLを受け付けます。コールバックURLを使用すると、抽出の完了を確認するためにサービスをポーリングする必要がなくなります。
コールバックURLは、以下のようにconvertメソッドに提供できます。

result = client.convert(
    input: IDRCloudClient::UPLOAD,
    callbackUrl: 'http://listener.url',
    file: 'path/to/exampleFile.pdf',
    , 
    settings: '{"mode":"extractText","type":"plainText"}')

設定オプション

JPedal APIは、抽出をカスタマイズするためのキーと値のペアの設定オプションを含む文字列化されたJSONオブジェクトを受け付けます。設定はconvertメソッドに提供する必要があります。PDFからテキストを抽出するための設定オプションの完全なリストはこちら をご覧ください。

settings:'{"key":"value","key":"value"}'

URLでアップロード

ローカルファイルをアップロードする代わりに、JPedalマイクロサービスがダウンロードして抽出を実行するURLを提供することもできます。これを行うには、convertメソッドのinputとfileの値を以下のように置き換える必要があります。

input:IDRCloudClient.DOWNLOAD
url:'http://exampleURL/exampleFile.pdf'

認証を使用する

PDFからテキストを抽出する際にユーザー名とパスワードを必要とする独自のJPedalマイクロサービスをデプロイしている場合、変換ごとにそれらを提供する必要があります。これらは、以下のようにconvertメソッドにauthという名前の変数を渡すことで提供されます。

auth:('username', 'password'))

詳細情報

GitHubのIDRCloudClient
RUBYのIDRCloudClient
JPedalマイクロサービスAPI
JPedalマイクロサービスの使用方法