首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >C#编码Shift-JIS与utf8 html敏捷包

C#编码Shift-JIS与utf8 html敏捷包
EN

Stack Overflow用户
提问于 2013-05-19 22:54:27
回答 1查看 1.1K关注 0票数 1

我有个问题。我的目标是将(日语Shift-JS编码的)html中的一些文本保存到utf8编码的文本文件中。但我真的不知道如何对文本进行编码..HtmlNode对象用Shift-JS编码。但是在我使用ToString()方法之后,内容被破坏了。到目前为止,我的方法如下所示:

代码语言:javascript
复制
public String getPage(String url)
    {
        String content = "";

        HtmlDocument page = new HtmlWeb(){AutoDetectEncoding = true}.Load(url);
        HtmlNode anchor = page.DocumentNode.SelectSingleNode("//div[contains(@class, 'article-def')]");

        if (anchor != null)
        {
            content = anchor.InnerHtml.ToString();
        }
        return content;
    }

我试过了

代码语言:javascript
复制
Console.WriteLine(page.Encoding.EncodingName.ToString());

和got:日语Shift-JIS,但将html转换为字符串会产生错误。我认为应该有一种方法,但由于html-agility-pack的文档很少,而且我无法通过google找到解决方案,所以我在这里也得到了一些提示。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-05-20 00:10:32

好吧,AutoDetectEncoding并不像你期望的那样工作。根据我在查看AgilityPack源代码时所发现的,该属性仅在从磁盘加载本地文件时使用,而不是从url加载。

所以有三种选择。一种方法是只设置Encoding

代码语言:javascript
复制
OverrideEncoding = Encoding.GetEncoding("shift-jis")

如果您知道编码始终是相同的,这是最简单的修复方法。

或者,您可以将文件下载到本地,并像现在一样加载它,但您将传递文件路径,而不是url。

代码语言:javascript
复制
 using (var client=new WebClient())
 {
   client.DownloadFile(url, "20130519-OYT1T00606.htm");
 }
 var htmlWeb = new HtmlWeb(){AutoDetectEncoding = true};
 var file = new FileInfo("20130519-OYT1T00606.htm");
 HtmlDocument page = htmlWeb.Load(file.FullName);

或者你可以像这样从你的内容中检测编码:

代码语言:javascript
复制
byte[] pageBytes;
using (var client = new WebClient())
{
  pageBytes = client.DownloadData(url);
}
HtmlDocument page = new HtmlDocument();
using (var ms = new MemoryStream(pageBytes))
{
  page.Load(ms);
  var metaContentType = page.DocumentNode.SelectSingleNode("//meta[@http-equiv='Content-Type']").GetAttributeValue("content", "");
  var contentType = new System.Net.Mime.ContentType(metaContentType);
  ms.Position = 0;
  page.Load(ms, Encoding.GetEncoding(contentType.CharSet));
}

最后,如果要查询的页面在响应中返回content-Type,则可以查看here以了解如何获得编码。

当然,您的代码比我的代码需要更多的null检查。;)

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16635986

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档