首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >提取网站纯html

提取网站纯html
EN

Stack Overflow用户
提问于 2017-01-17 17:22:49
回答 1查看 72关注 0票数 0

我正在尝试使用以下代码访问网站的内容:

代码语言:javascript
复制
HttpClient httpClient = new HttpClient();
string htmlresult = "";

var response = await httpClient.GetAsync(url);

if (response.IsSuccessStatusCode)
{
    htmlresult = await response.Content.ReadAsStringAsync();
}

return htmlresult;

它给了我正确的html,除了https://www.yahoo.com,它可能给我一个加密的字符串,而不是普通的html,类似于下面的内容。

代码语言:javascript
复制
   ‹       Ľç–ãF¶.øÿ<»Ž4Kj“ð¦ÔÒ½÷ž·îÊO0$ Úž~÷   4@D™U:ëNgK"bÛÄïÿõr¯4^ô 

我怎样才能从这个加密文本中得到简单的html?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-01-17 17:43:58

雅虎使用的是Accept-Encoding: gzip, deflate, br,所以你这里的内容是用g压缩的。快速修复您的代码-启用自动解压缩:

代码语言:javascript
复制
private async Task<String> GetUrl(string url)
{
    HttpClientHandler handler = new HttpClientHandler()
    {
        AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate
    };

    HttpClient httpClient = new HttpClient(handler);

    string htmlresult = "";

    var response = await httpClient.GetAsync(url);

    if (response.IsSuccessStatusCode)
    {
        htmlresult = await response.Content.ReadAsStringAsync();
    }

    return htmlresult;
}
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41693278

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档