我只有几个关于这个话题的问题。
有没有人能解释一下使用以下语言编写刮板的优缺点:
Java/Groovy
Perl
PhP
硒
Python
我也想知道在抓取时会面临什么样的问题,以及我应该如何处理它。例如,我遇到过片段标识,但还没有找到处理它的方法。(我使用的是htmlunit)
我只是为那些对这个话题略知一二的人寻找一些指点。
发布于 2010-12-17 23:52:28
优点/缺点更多地与可用的框架相关,而不是编程语言本身。
发布于 2010-12-16 13:00:12
我建议从Python + lxml开始。Mechanize有时也很有帮助。
依赖于JavaScript或cookies的网站比较难抓取,但大多数都很简单。
请确保在请求之间留出几秒钟的时间,以避免被阻塞。
发布于 2010-12-17 17:53:43
考虑一下TestPlan。它有自己的高级语言,但您也可以用Java编写模块。它支持Selenium后端以及HTMLUnit。
如果你能用你的片段给出一个具体的问题(问题),那么我也可以回答。
https://stackoverflow.com/questions/4454897
复制相似问题