検索と抽出のファイルエンコーディングを変更する方法
Javaは異なるエンコーディングでテキストを書き出すことができます。場合によっては、ページ上で表示されるテキストが抽出後に見えるテキストと一致しないことがあります。最も一般的な原因は、コンテンツがあるエンコーディングとして読み込まれているにもかかわらず、別の場所で異なるエンコーディングとして扱われていることです。
これによってよく起こる現象として、文字が認識されず????として返されることがあります。
検索または抽出機能を使用する場合は、以下のVM引数を設定することを推奨します。
-Dfile.encoding=UTF-8
Java 18以降では、このフラグはデフォルトで設定されているため不要です。
サポートされているエンコーディングのリストはこちらで確認できます 。
