文章/答案/技术大牛

发布

问C#文本匹配HTML
EN

Stack Overflow用户

提问于 2013-02-22 01:04:37

回答 4查看 109关注 0票数 1

我正在尝试与一个非常糟糕的“web服务”进行交互(巧妙地伪装成简单的aspx页面……)但是我不能控制页面，所以我不能调整输出，所以我只能使用它。格式始终相同，如下所示：

<b>
   <a href=\"http://www.google.com/\" target=\"_blank\">Google Inc</a>
</b>
<br />123 North Main
<br />Hume, ACT
<br />(999) 888-8888

那么，我需要解析出URL、Name、Address、City、State和Phone吗？它并不是真正格式正确的XML，所以我不能使用XML解析器，而且RegEx看起来非常糟糕，那么我是不是被String.Match和IndexOf之类的东西卡住了？

谢谢你的建议...詹姆斯

string

xml-parsing

regex

回答 4

Stack Overflow用户

发布于 2013-02-22 01:11:44

您可以使用HTML解析器来解析页面，Html Agility Pack是一个免费且健壮的解析器。或者您可以使用任何用于.Net的XQuery处理器，请查看此thread，了解使用regex解析html页面的缺点

票数 2

Stack Overflow用户

发布于 2013-02-22 01:13:14

假设html元素保持静态，则不需要regex。我的解决方案是找到<b>, </b>, and <br />元素的索引，然后从一个索引到下一个索引取子字符串。例如

int bStartIndex = html.IndexOf("<b>");
int bEndIndex = html.IndexOf("</b>)");
int urlSize = bEndIndex - bStartIndex - 3;
string url = html.Substring(bStartIndex + 3, urlSize);

是的，这种方法是一个粗糙的黑客，然而，考虑到“非常糟糕的网络服务”的情况，我认为这是一个公平和直接的解决方案，尽管冗长乏味。

票数 1

Stack Overflow用户

发布于 2013-02-22 01:13:43

在过去，我尝试了许多其他方法来使用框架方法来获取内部的值。但是这种格式太过定制化了，所以我认为唯一的方法就是循环响应中的每一行，只要你得到一个值，它就会有一个url。任何时候你开始阅读

字符串，它将是地址，接下来是城市州，依此类推。由于任何原因，对象的属性顺序到达不同的顺序行，那么代码将失败。我建议您(如果可能的话)至少从服务返回一种易于反序列化的JSON格式。在其他情况下，您应该构建自己的反序列化程序来根据需要获取数据。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15008134

复制

相似问题

问C#文本匹配HTML
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问C#文本匹配HTMLEN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问C#文本匹配HTML
EN