我正在尝试与一个非常糟糕的“web服务”进行交互(巧妙地伪装成简单的aspx页面……)但是我不能控制页面,所以我不能调整输出,所以我只能使用它。格式始终相同,如下所示:
<b>
<a href=\"http://www.google.com/\" target=\"_blank\">Google Inc</a>
</b>
<br />123 North Main
<br />Hume, ACT
<br />(999) 888-8888那么,我需要解析出URL、Name、Address、City、State和Phone吗?它并不是真正格式正确的XML,所以我不能使用XML解析器,而且RegEx看起来非常糟糕,那么我是不是被String.Match和IndexOf之类的东西卡住了?
谢谢你的建议...詹姆斯
发布于 2013-02-22 01:11:44
您可以使用HTML解析器来解析页面,Html Agility Pack是一个免费且健壮的解析器。或者您可以使用任何用于.Net的XQuery处理器,请查看此thread,了解使用regex解析html页面的缺点
发布于 2013-02-22 01:13:14
假设html元素保持静态,则不需要regex。我的解决方案是找到<b>, </b>, and <br />元素的索引,然后从一个索引到下一个索引取子字符串。例如
int bStartIndex = html.IndexOf("<b>");
int bEndIndex = html.IndexOf("</b>)");
int urlSize = bEndIndex - bStartIndex - 3;
string url = html.Substring(bStartIndex + 3, urlSize);是的,这种方法是一个粗糙的黑客,然而,考虑到“非常糟糕的网络服务”的情况,我认为这是一个公平和直接的解决方案,尽管冗长乏味。
发布于 2013-02-22 01:13:43
在过去,我尝试了许多其他方法来使用框架方法来获取内部的值。但是这种格式太过定制化了,所以我认为唯一的方法就是循环响应中的每一行,只要你得到一个值,它就会有一个url。任何时候你开始阅读
字符串,它将是地址,接下来是城市州,依此类推。由于任何原因,对象的属性顺序到达不同的顺序行,那么代码将失败。我建议您(如果可能的话)至少从服务返回一种易于反序列化的JSON格式。在其他情况下,您应该构建自己的反序列化程序来根据需要获取数据。
https://stackoverflow.com/questions/15008134
复制相似问题