Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

JavascriptでPDFからテキストを抽出する

目次

  1. はじめに
  2. 前提条件
  3. コード例
  4. コールバックURLに結果を返す
  5. 設定オプション
  6. URLによるアップロード
  7. 認証の使用
  8. 詳細情報

はじめに

このチュートリアルでは、ホストされたJPedalクラウドAPIを使用してPDFからテキストを抽出する方法を説明します。独自のセルフホスト型JPedalマイクロサービス をセットアップすることもできます。

上記のサービスは通常のHTTPリクエストでアクセスできますが、このチュートリアルでは、REST API をシンプルなJavascriptラッパーで包んだオープンソースのJavascript IDRCloudClient を使用します。

前提条件

プロジェクトにクライアントを追加するには、idrcloudclient.jsファイルをプロジェクトに追加し、以下の行を記述してアクセスする必要があります:

<script src="path/to/idrcloudclient.js" type="text/javascript"></script>

コード例

以下は、PDFからテキストを抽出するための基本的なコード例です。設定オプションや高度な機能については、以下をご覧ください。

var endpoint = 'https://my-self-hosted-service.com/' + IDRCloudClient.JPEDAL;
var parameters =  { 
    input: IDRCloudClient.UPLOAD,
    file: 'path/to/exampleFile.pdf',
    settings: '{"mode":"extractText","type":"plainText"}'
}

function progressListener(e) {
    console.log(JSON.stringify(e));
}

function failureListener(e) {
    console.log(e);
    console.log('Failed!');
}

function successListener(e) {
    console.log(JSON.stringify(e));
    console.log('Download URL: ' + e.downloadUrl);
}

IDRCloudClient.convert({
    endpoint: endpoint,
    parameters: parameters,
    
    // 以下は利用可能なリスナーです
    progress: progressListener,
    success: successListener,
    failure: failureListener
});

Javascriptクライアントを使用した例はこちら にあります。

コールバックURLに結果を返す

JPedalマイクロサービスは、抽出完了時にそのステータス を送信するためのコールバックURLを受け付けます。コールバックURLを使用することで、抽出が完了したかどうかを判断するためにサービスをポーリングする必要がなくなります。
コールバックURLは、以下に示すようにparameters変数に指定できます。

var parameters =  {
    input: IDRCloudClient.UPLOAD,
    callbackUrl: 'http://listener.url',
    file: 'path/to/exampleFile.pdf',
    settings: '{"mode":"extractText","type":"plainText"}'
}

設定オプション

JPedal APIは、抽出をカスタマイズするためのキーと値のペアの設定オプションを含む、文字列化されたJSONオブジェクトを受け付けます。設定はparameters配列に追加する必要があります。PDFからテキストを抽出するための設定オプションの完全なリストはこちら にあります。

settings: '{"key":"value","key":"value"}'

URLによるアップロード

ローカルファイルをアップロードするだけでなく、JPedalマイクロサービスがダウンロードして抽出を実行するURLを指定することもできます。これを行うには、parameters変数のinputとfileの値を以下のように置き換えます。

input: IDRCloudClient.DOWNLOAD
url: 'http://exampleURL/exampleFile.pdf'

認証の使用

PDFからテキストを抽出するためにユーザー名とパスワードを必要とする独自のJPedalマイクロサービスをデプロイした場合、各変換時にそれらを提供する必要があります。これらは、以下に示すように、usernameとpasswordという名前の2つの変数をconvertメソッドに渡すことで提供されます。

username: 'username',
password: 'password',

詳細情報

GitHub上のIDRCloudClient
IDRCloudClientオンライン例
JPedalマイクロサービスAPI
JPedalマイクロサービスの使用