PHPを使用してPDFからテキストを抽出する
次のチュートリアルでは、ホストされたJPedalクラウドAPIを使用してPDFからテキストを抽出する方法を説明します。独自のセルフホスト型JPedalマイクロサービス をセットアップすることもできます。
上記のサービスは通常のHTTPリクエストでアクセスできますが、このチュートリアルでは、REST API をシンプルなPHPラッパーで包んだオープンソースのPHP IDRCloudClient を使用します。
composerを使用して、次のコマンドでidrsolutions-php-clientパッケージ をインストールしてください。
composer require idrsolutions/idrsolutions-php-client
以下は、PDFからテキストを抽出するための基本的なコード例です。設定オプションと高度な機能については、以下をご覧ください。
<?php
require_once __DIR__ . "/PATH/TO/vendor/autoload.php";
use IDRsolutions\IDRCloudClient;
$endpoint = "https://my-self-hosted-service.com/" . IDRCloudClient::INPUT_JPEDAL;
$parameters = array(
'input' => IDRCloudClient::INPUT_UPLOAD,
'file' => __DIR__ . 'path/to/file.pdf',
'settings' => '{"mode":"extractText","type":"plainText"}'
);
$results = IDRCloudClient::convert(array(
'endpoint' => $endpoint,
'parameters' => $parameters
));
IDRCloudClient::downloadOutput($results, __DIR__ . '/');
echo $results['downloadUrl'];
JPedalマイクロサービスは、抽出完了時に抽出のステータス
を送信するコールバックURLを受け付けます。コールバックURLを使用することで、抽出が完了したかどうかを判断するためにサービスをポーリングする必要がなくなります。
コールバックURLは、以下のようにparameters配列に追加できます。
$parameters = array(
'input' => IDRCloudClient::INPUT_UPLOAD,
'callbackUrl' => 'http://listener.url',
'file' => __DIR__ . 'path/to/file.pdf',
'settings' => '{"mode":"extractText","type":"plainText"}'
);
JPedal APIは、抽出をカスタマイズするためのキーと値のペアの設定オプションを含む文字列化されたJSONオブジェクトを受け付けます。設定はparameters配列に追加する必要があります。PDFからテキストを抽出するための設定オプションの完全なリストはこちら でご覧いただけます。
'settings' => '{"key":"value","key":"value"}'
ローカルファイルをアップロードする代わりに、JPedalマイクロサービスがダウンロードして抽出を実行するURLを指定することもできます。これを行うには、parameters配列内のinputとfileの値を次のように置き換えます。
'input' => IDRCloudClient.DOWNLOAD
'url' => 'http://exampleURL/exampleFile.pdf'
PDFからテキストを抽出するためにユーザー名とパスワードが必要な独自のJPedalマイクロサービスをデプロイした場合は、各変換時にそれらを提供する必要があります。これらは、以下のようにparameters配列にusernameとpasswordという2つの変数を追加することで提供されます。
'username' => 'Username_If_Required',
'password' => 'Password_If_Required',
この場合、downloadOutputメソッドにも認証値を提供する必要があります。
IDRCloudClient::downloadOutput($results, __DIR__ . '/','newFileName','username','password');
GitHub上のIDRCloudClient
Packagist上のIDRCloudClient
JPedalマイクロサービスAPI
JPedalマイクロサービスの使用方法
