コマンドラインでPDFからメタデータを抽出する
JPedalは、PDFからメタデータをJSONオブジェクトとして抽出し、再利用することができます。
このデータの全てまたは一部を、以下のコマンドラインコマンドを使用して、ファイルから任意の順序で抽出できます。
java -jar jpedal.jar --metadata inputFile.pdf [metaDataType]...
この方法でアクセスできるデータとmetaDataTypeは以下の通りです。
- ドキュメントのメタデータフィールド - fields
- メタデータXML - xml
- ページサイズデータ - pagesizes
- ドキュメントのブックマーク/アウトライン - outline
- ドキュメントのフォントリスト - fonts
- ドキュメントのページ数 - pagecount
metaDataTypeの有効な値は、上記の太字の値をスペース文字で区切った任意の組み合わせです。1つのコマンドで同じタイプを複数回リクエストした場合でも、出力は1回のみとなります。
値が設定されていない場合、metaDataTypeのデフォルトオプションは完全なリストになります。
この情報を他の場所で使用するために保存したい場合は、バッチスクリプトやbashスクリプトでパイプを使用して、以下のように出力をファイルにパイプできます。
java -jar jpedal.jar --metadata inputFile.pdf > outputFile.txt
この機能はJPedalのPDFUtilities クラスを使用しています。
