首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >字符编码

字符编码
EN

Stack Overflow用户
提问于 2011-03-04 14:35:20
回答 1查看 1.5K关注 0票数 2

我得到的html文件,我需要阅读和分析,这个文件可以是简单的英语,日语,或任何语言的相关字符编码所需的语言。当文件在日文中使用这些编码时,就会出现此问题。

  • 移位JIS
  • EUC-JP
  • ISO-2022-JP

我试着用FileReader读取文件,但结果文件都是垃圾字符。我还尝试使用FileInputStream,只使用硬编码的日本编码来检查日本文件是否被正确读取,但结果并不像预期的那样。

代码语言:javascript
复制
FileInputStream fis = new FileInputStream(htmlFile);
InputStreamReader isr = new InputStreamReader(fis, " ISO-2022-JP");

我对字符编码和国际化没有太多的经验,对于如何用不同的编码来读写文件有什么建议吗?

还有一件事,我不知道如何获得我正在读取的html文件的字符编码,我知道我需要用相同的编码方式编写文件,但不知道如何获得原始文件的编码谢谢,

EN

回答 1

Stack Overflow用户

发布于 2011-03-04 15:03:17

  • 忘记FileReader的存在,它隐式地使用平台默认编码,这使得它几乎毫无用处。
  • 使用硬编码编码的代码是正确的,只有编码本身是正确的,编码本身有一个前导空间。如果删除它,代码应该正确读取ISO-2022-JP编码的文件。
  • 至于获得HTML文件的字符编码,可以通过多种方式传输。
    • Content-Type HTTP报头中的HTTP级别上--但只有当您从when服务器读取文件时才可用,而不是当它保存为文件时才可用
    • 作为相应的元HTML标签<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
    • 或者,如果文档类型为XHTML,在XML声明中<?xml version="1.0" encoding="UTF-8"?>

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5195100

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档