问字符编码
EN

Stack Overflow用户

提问于 2011-03-04 14:35:20

回答 1查看 1.5K关注 0票数 2

我得到的html文件，我需要阅读和分析，这个文件可以是简单的英语，日语，或任何语言的相关字符编码所需的语言。当文件在日文中使用这些编码时，就会出现此问题。

我试着用FileReader读取文件，但结果文件都是垃圾字符。我还尝试使用FileInputStream，只使用硬编码的日本编码来检查日本文件是否被正确读取，但结果并不像预期的那样。

FileInputStream fis = new FileInputStream(htmlFile);
InputStreamReader isr = new InputStreamReader(fis, " ISO-2022-JP");

我对字符编码和国际化没有太多的经验，对于如何用不同的编码来读写文件有什么建议吗？

还有一件事，我不知道如何获得我正在读取的html文件的字符编码，我知道我需要用相同的编码方式编写文件，但不知道如何获得原始文件的编码谢谢，

发布于 2011-03-04 15:03:17

忘记FileReader的存在，它隐式地使用平台默认编码，这使得它几乎毫无用处。
使用硬编码编码的代码是正确的，只有编码本身是正确的，编码本身有一个前导空间。如果删除它，代码应该正确读取ISO-2022-JP编码的文件。
至于获得HTML文件的字符编码，可以通过多种方式传输。
- 在Content-Type HTTP报头中的HTTP级别上--但只有当您从when服务器读取文件时才可用，而不是当它保存为文件时才可用
- 作为相应的元HTML标签：<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
- 或者，如果文档类型为XHTML，在XML声明中：<?xml version="1.0" encoding="UTF-8"?>

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5195100

复制

相似问题

问字符编码EN