我试图刮一个法语网站,但法语语言有一些特殊的字符,如é和à等,最后我得到了一些奇怪的输出,而不是那个( Google中的检查)
<a href="www.exemple.com/1" title="Soins Anti-âge et Anti-rides">
<span>Soins Anti-âge et Anti-rides</span>
</a>
<a href="www.exemple.com/2" title="Rides installées">
<span>Rides installées</span>
</a>我将得到这个输出( Visualizer中的文本可视化器)
<a href="www.exemple.com/1" title="Soins Anti-âge et Anti-rides">
<span>Soins Anti-âge et Anti-rides</span>
</a>
<a href="www.exemple.com/2" title="Rides installées">
<span>Rides installées</span>
</a>我的代码如下
string url = "https://universparadiscount.ma/7-product.html";
HttpClient httpClient = new HttpClient();
string html = await httpClient.GetStringAsync(url);
HtmlDocument htmlDocument = new HtmlDocument();
htmlDocument.LoadHtml(html);
string SubCategory = htmlDocument.DocumentNode.Descendants("span")
.Where(node => node.GetAttributeValue("itemprop", string.Empty)
.Equals("title")).LastOrDefault()?.InnerText.Trim('\r', '\n', '\t', ' ');
Console.WriteLine(SubCategory);发布于 2021-01-23 07:22:39
如果我理解这个问题,您可以使用HttpUtility.HtmlDecode
将被HTML编码的用于HTTP传输的字符串转换为已解码的字符串。
若要在web应用程序之外对值进行编码或解码,请使用WebUtility类。
示例
Console.WriteLine(SubCategory);
Console.WriteLine(HttpUtility.HtmlDecode(SubCategory));输出
Rides installées
Rides installéeshttps://stackoverflow.com/questions/65856640
复制相似问题