我正试图从agent&locatorhome=fromhome&language=那里得到所有的数据--每个州都列在那里。基本上是姓名、地址、电子邮件等。
我的问题是:
我愿意手动遍历状态,但是是否有任何方法可以选择一个div并从所有类似的div复制内容/文本。我的意思是,你可以看到那里有一个标签,里面有完整的内容。如何从标签中出现的所有文本中提取文本?
我对任何脚本语言,Php,perl python,甚至一个简单的firefox插件都不感兴趣.我只需要结果。有指引吗?
我尝试利用网络收获
<?xml version="1.0" encoding="UTF-8"?>
<config charset="ISO-8859-1">
<!-- sends post request with state name -->
<http>
<http method="post" url="http://www.nationwide.com/locator/home/index.x?lineOfBusiness=insurance_agent&locatorhome=fromhome&language=">
<http-param name="state">AL</http-param>
<http-param name="searchType">proximity_search</http-param>
<http-param name="requestSource">home_NI</http-param>
<http-param name="businessType">NI</http-param>
<http-param name="language">en</http-param>
<http-param name="UserAddressCookieAction">createUserAddressCookie</http-param>
</http>
<!-- collects content inside address tag -->
</config>发布于 2012-08-21 19:57:30
你可以使用irobotsoft刮刀。查看这里的演示:
http://irobotsoft.com/help/
要迭代下拉列表,可以遵循以下线程:
http://irobotsoft.org/bb/YaBB.pl?num=1248753202
发布于 2012-08-21 08:14:02
我不能加载你的网页,但我仍然可以帮助希望。你可以使用一个很棒的软件:
http://jsoup.org/
用于自动抓取这些数据。但是,您必须编写一个小型Java程序。要获得css选择器(这就是您可以根据的基础),您可以在firefox中使用Firebug外接程序。
如果您不想编写Java代码,您可以使用另一个很棒的工具:
http://web-harvest.sourceforge.net/
在他们的页面上,你可以看到很多例子,甚至使用post方法。
如果你还需要帮助,请告诉我!
https://stackoverflow.com/questions/12050596
复制相似问题