首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >下载HTML页面并将其编码到文件中

下载HTML页面并将其编码到文件中
EN

Stack Overflow用户
提问于 2015-01-31 08:02:24
回答 1查看 869关注 0票数 0

我喜欢下载一些使用charset="UTF-8“的网页。

此页面是一个示例:2003

我总是有这样的特殊角色:碧昂斯圣保罗,而不是碧昂斯。

我尝试了以下代码:

代码语言:javascript
复制
WebClient webClient = new WebClient();
webClient.Encoding = System.Text.Encoding.UTF8;
webClient.DownloadFile(url, fileName);

或者这个:

代码语言:javascript
复制
WebClient client = new WebClient();
Byte[] pageData = client.DownloadData(url);
string pageHtml = Encoding.UTF8.GetString(pageData);
System.IO.File.WriteAllText(fileName, pageHtml);

我做错什么了?

我只想要一个简单的方式下载网页,并将它们写入文件。在完成之后,我将从这些文件中提取数据,显然我想要“正常”字符,就像我在原始网页上看到的那样,而不是一些特殊字符。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-01-31 12:29:49

问题是WriteAllText方法没有在文件中用UTF-8编写编码的文本。您应该添加编码:

代码语言:javascript
复制
System.IO.File.WriteAllText(fileName, pageHtml, Encoding.UTF8);
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28249555

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档