我得到的html文件,我需要阅读和分析,这个文件可以是简单的英语,日语,或任何语言的相关字符编码所需的语言。当文件在日文中使用这些编码时,就会出现此问题。
我试着用FileReader读取文件,但结果文件都是垃圾字符。我还尝试使用FileInputStream,只使用硬编码的日本编码来检查日本文件是否被正确读取,但结果并不像预期的那样。
FileInputStream fis = new FileInputStream(htmlFile);
InputStreamReader isr = new InputStreamReader(fis, " ISO-2022-JP");我对字符编码和国际化没有太多的经验,对于如何用不同的编码来读写文件有什么建议吗?
还有一件事,我不知道如何获得我正在读取的html文件的字符编码,我知道我需要用相同的编码方式编写文件,但不知道如何获得原始文件的编码谢谢,
发布于 2011-03-04 15:03:17
FileReader的存在,它隐式地使用平台默认编码,这使得它几乎毫无用处。Content-Type HTTP报头中的HTTP级别上--但只有当您从when服务器读取文件时才可用,而不是当它保存为文件时才可用<META http-equiv="Content-Type" content="text/html; charset=EUC-JP"><?xml version="1.0" encoding="UTF-8"?>
https://stackoverflow.com/questions/5195100
复制相似问题