Java web刮刀器的最佳库是什么?我知道以下选择:
我需要选择一个选项来为一个可伸缩的项目构建一个刮板。
发布于 2011-03-03 10:28:10
如果你在刮擦,为什么你需要一个浏览器?只需对页面执行基本的cURL调用并获得响应,就可以为您提供所需的抓取功能。
这将有助于实现可伸缩性。如果您想要一个浏览器,那么就选择HTMLUnit,因为这将再次帮助实现可伸缩性。
发布于 2011-03-03 15:07:53
我最近被推荐为网络收获,并且认为它很有效,除了HTTP500个响应代码的一些问题.
发布于 2012-03-02 11:24:34
使用汤汁,可以很好地从URL获取响应,然后使用XPath表达式解析响应中的数据。我已经实现了这一点,而且效果很好。
https://stackoverflow.com/questions/5179394
复制相似问题