发布于 2015-05-13 23:52:57
美汤是专门为web爬行和抓取而设计的,但它是为python而不是为R编写的。
发布于 2015-05-20 13:13:05
刮痕是一个很好的Python库,它可以帮助您更快地抓取不同的站点,并使您的代码结构更好。并不是所有的站点都可以使用经典工具进行解析,因为它们可以使用动态的JS内容构建。对于这个任务,最好使用硒 (这是一个用于网站的测试框架,但也是一个很棒的web抓取工具)。还有一个Python包装器可以用于这个库。在谷歌中,您可以找到一些技巧,这些技巧可以帮助您在刮痕中使用Selenium,并使您的代码清晰、有条理,您还可以为刮痕库使用一些很好的工具。
我认为Selenium会比传统工具更适合Linkedin。这里有大量的javascript和动态内容。另外,如果您想要在您的帐户中进行身份验证并刮取所有可用的内容,那么使用简单的库(如请求或乌尔利卜 )就会遇到许多问题。
发布于 2015-05-19 20:32:50
我喜欢红背心与SelectorGadget铬插件相结合来选择相关的部分.
通过以下方式,我使用了rvest并构建了一些小脚本来在论坛中分页:
https://datascience.stackexchange.com/questions/5789
复制相似问题