0
?や~の文字化けに関する質問です
私は、アルファポリスの小説をダウンロードするためにURLを入力するとその小説の本文をテキストデータで出力する様なプログラムを作成しました。
しかしここで問題が発生してしまって、出力されたテキストを見ると「?」や「~」といった記号が文字化けしてしまって「?」と出力されてしまいました。
例)
原文「??あなたは最初から、唯の保険として作られたんですよ」
出力「??あなたは最初から、唯の保険として作られたんですよ」
どうしてこうなってしまうのか自分なりに考えてみました(間違っているかもしれませんが参考程度に…)
目的の小説サイトに使われている文字コードはEUC-JPのため、URLを指定してHTMLソースを取得する段階ではEUC-JPのバイトコードを取得し、指定された(EUC-JP)文字コードによってバイトコードをデコードします。
しかしここでJAVAが扱うためにデコードされた文字列をUnicodeに変換、しかし「?」や「~」は変換時に何らかの問題で未定義のものとして変換されてしまい文字化けする。
ここで私はバイトコードを取得した段階で文字化けしてしまう?や~を検知してどうにかすれば良いのかもしれない(よくわかってないです)
と思いました。
しかし、私はjavaについても初心者でどのように解決すればいいか良くわかりません
どなたかアドバイスを頂けないでしょうか?