検索と抽出のファイルエンコーディングを変更する方法
Javaは異なるエンコーディングでテキストを出力することができます。場合によっては、ページ上で表示されるテキストが抽出後に見えるテキストと一致しないことがあります。最も一般的な原因は、コンテンツがあるエンコーディングで読み込まれているにもかかわらず、別の場所では異なるエンコーディングとして扱われることです。
この問題の一般的な結果として、文字が認識されず ????として返されることがあります。
検索または抽出機能を使用する場合は、次のVM引数を設定することをお勧めします。
-Dfile.encoding=UTF-8
Java 18以降では、このフラグはデフォルトで設定されているため、指定する必要はありません。
サポートされているエンコーディングの一覧はこちらで確認できます 。
