文章/答案/技术大牛

发布

社区首页 >问答首页 >Web数据抓取的查询

问Web数据抓取的查询
EN

Stack Overflow用户

提问于 2012-08-21 08:05:23

回答 2查看 582关注 0票数 1

我正试图从agent&locatorhome=fromhome&language=那里得到所有的数据--每个州都列在那里。基本上是姓名、地址、电子邮件等。

我的问题是：

没有URL参数可供我从下拉列表中遍历状态。

我愿意手动遍历状态，但是是否有任何方法可以选择一个div并从所有类似的div复制内容/文本。我的意思是，你可以看到那里有一个标签，里面有完整的内容。如何从标签中出现的所有文本中提取文本？

我对任何脚本语言，Php，perl python，甚至一个简单的firefox插件都不感兴趣.我只需要结果。有指引吗？

我尝试利用网络收获

<?xml version="1.0" encoding="UTF-8"?>

<config charset="ISO-8859-1">
     <!-- sends post request with state name -->
     <http>
        <http method="post" url="http://www.nationwide.com/locator/home/index.x?lineOfBusiness=insurance_agent&locatorhome=fromhome&language=">
        <http-param name="state">AL</http-param>
        <http-param name="searchType">proximity_search</http-param>
        <http-param name="requestSource">home_NI</http-param>
        <http-param name="businessType">NI</http-param>
        <http-param name="language">en</http-param>
        <http-param name="UserAddressCookieAction">createUserAddressCookie</http-param>
    </http>
      <!-- collects content inside address tag -->


</config>

screen-scraping

web-scraping

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-08-21 19:57:30

你可以使用irobotsoft刮刀。查看这里的演示：

http://irobotsoft.com/help/

要迭代下拉列表，可以遵循以下线程：

http://irobotsoft.org/bb/YaBB.pl?num=1248753202

票数 0

Stack Overflow用户

发布于 2012-08-21 08:14:02

我不能加载你的网页，但我仍然可以帮助希望。你可以使用一个很棒的软件：

http://jsoup.org/

用于自动抓取这些数据。但是，您必须编写一个小型Java程序。要获得css选择器(这就是您可以根据的基础)，您可以在firefox中使用Firebug外接程序。

如果您不想编写Java代码，您可以使用另一个很棒的工具：

http://web-harvest.sourceforge.net/

在他们的页面上，你可以看到很多例子，甚至使用post方法。

如果你还需要帮助，请告诉我！

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12050596

复制

相似问题

问Web数据抓取的查询
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Web数据抓取的查询EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Web数据抓取的查询
EN