我试图从浏览器中读取源代码,但是当代码包含ã,á,à,ó这样的字符时,我得到的是�。
我尝试在读取行上应用java.nio.Charset.encode,但是没有结果:同样的事情也发生了。
我的代码是:
URLConnection connection = ...;
BufferedReader reader = new BufferedReader(connection.getInputStream());
String s = null;
while ((s = reader.readLine()) != null) {
// got new source line...
}我正在尝试阅读的网站是this one (PT-BR)。
发布于 2013-03-20 08:44:12
根据meta标记,该页面上的字符集是ISO-8859-1。尝试使用:
Scanner scanner = new Scanner(connection.getInputStream(), "ISO-8859-1");https://stackoverflow.com/questions/15513189
复制相似问题