コマンドラインでPDFからメタデータを抽出する
JPedalは、PDFからメタデータをJSONオブジェクトとして抽出し、再利用することができます。
以下のコマンドラインコマンドを使用して、ファイルからこのデータの全部または一部を任意の順序で抽出できます。
java -jar jpedal.jar --metadata inputFile.pdf [metaDataType]...
この方法でアクセスできるデータとmetaDataTypeは以下の通りです。
- ドキュメントメタデータフィールド - fields
- メタデータXML - xml
- ページサイズデータ - pagesizes
- ドキュメントのブックマーク/アウトライン - outline
- ドキュメントのフォントリスト - fonts
- ドキュメントのページ数 - pagecount
metaDataTypeの有効な値は、上記の太字の値をスペース文字で区切った任意の組み合わせです。1つのコマンドで同じタイプを複数回リクエストした場合でも、出力は1回のみとなります。
値が設定されていない場合、metaDataTypeのデフォルトオプションは全リストになります。
この情報を他の場所で使用するために保存したい場合は、バッチスクリプトやbashスクリプトでパイプを使用して、以下のようにファイルに出力をパイプできます。
java -jar jpedal.jar --metadata inputFile.pdf > outputFile.txt
この機能は、JPedalのPDFUtilities クラスを使用しています。
