首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >C#文本匹配HTML

C#文本匹配HTML
EN

Stack Overflow用户
提问于 2013-02-22 01:04:37
回答 4查看 109关注 0票数 1

我正在尝试与一个非常糟糕的“web服务”进行交互(巧妙地伪装成简单的aspx页面……)但是我不能控制页面,所以我不能调整输出,所以我只能使用它。格式始终相同,如下所示:

代码语言:javascript
复制
<b>
   <a href=\"http://www.google.com/\" target=\"_blank\">Google Inc</a>
</b>
<br />123 North Main
<br />Hume, ACT
<br />(999) 888-8888

那么,我需要解析出URLNameAddressCityStatePhone吗?它并不是真正格式正确的XML,所以我不能使用XML解析器,而且RegEx看起来非常糟糕,那么我是不是被String.MatchIndexOf之类的东西卡住了?

谢谢你的建议...詹姆斯

EN

回答 4

Stack Overflow用户

发布于 2013-02-22 01:11:44

您可以使用HTML解析器来解析页面,Html Agility Pack是一个免费且健壮的解析器。或者您可以使用任何用于.Net的XQuery处理器,请查看此thread,了解使用regex解析html页面的缺点

票数 2
EN

Stack Overflow用户

发布于 2013-02-22 01:13:14

假设html元素保持静态,则不需要regex。我的解决方案是找到<b>, </b>, and <br />元素的索引,然后从一个索引到下一个索引取子字符串。例如

代码语言:javascript
复制
int bStartIndex = html.IndexOf("<b>");
int bEndIndex = html.IndexOf("</b>)");
int urlSize = bEndIndex - bStartIndex - 3;
string url = html.Substring(bStartIndex + 3, urlSize);

是的,这种方法是一个粗糙的黑客,然而,考虑到“非常糟糕的网络服务”的情况,我认为这是一个公平和直接的解决方案,尽管冗长乏味。

票数 1
EN

Stack Overflow用户

发布于 2013-02-22 01:13:43

在过去,我尝试了许多其他方法来使用框架方法来获取内部的值。但是这种格式太过定制化了,所以我认为唯一的方法就是循环响应中的每一行,只要你得到一个值,它就会有一个url。任何时候你开始阅读

字符串,它将是地址,接下来是城市州,依此类推。由于任何原因,对象的属性顺序到达不同的顺序行,那么代码将失败。我建议您(如果可能的话)至少从服务返回一种易于反序列化的JSON格式。在其他情况下,您应该构建自己的反序列化程序来根据需要获取数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15008134

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档