首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >LinkedIn网络抓取

LinkedIn网络抓取
EN

Data Science用户
提问于 2015-05-13 21:01:03
回答 5查看 21.2K关注 0票数 11

最近,我发现了一个用于连接到新R包 API的LinkedIn。不幸的是,从一开始,LinkedIn API似乎是非常有限的;例如,您只能获得公司的基本数据,这与个人的数据是不同的。我想获取某一公司所有员工的数据,您可以使用在现场手动操作,但是通过API是不可能的。

如果import.io识别LinkedIn分页,那么它将是完美的(参见页面末尾)。

是否有人知道适用于LinkedIn站点当前格式的任何web抓取工具或技术,或者如何弯曲API以进行更灵活的分析?最好是基于R或网络,但肯定对其他方法开放。

EN

回答 5

Data Science用户

回答已采纳

发布于 2015-05-13 23:52:57

美汤是专门为web爬行和抓取而设计的,但它是为python而不是为R编写的。

票数 10
EN

Data Science用户

发布于 2015-05-20 13:13:05

刮痕是一个很好的Python库,它可以帮助您更快地抓取不同的站点,并使您的代码结构更好。并不是所有的站点都可以使用经典工具进行解析,因为它们可以使用动态的JS内容构建。对于这个任务,最好使用 (这是一个用于网站的测试框架,但也是一个很棒的web抓取工具)。还有一个Python包装器可以用于这个库。在谷歌中,您可以找到一些技巧,这些技巧可以帮助您在刮痕中使用Selenium,并使您的代码清晰、有条理,您还可以为刮痕库使用一些很好的工具。

我认为Selenium会比传统工具更适合Linkedin。这里有大量的javascript和动态内容。另外,如果您想要在您的帐户中进行身份验证并刮取所有可用的内容,那么使用简单的库(如请求乌尔利卜 )就会遇到许多问题。

票数 3
EN

Data Science用户

发布于 2015-05-19 20:32:50

我喜欢红背心与SelectorGadget铬插件相结合来选择相关的部分.

通过以下方式,我使用了rvest并构建了一些小脚本来在论坛中分页:

  1. 查找“m的页n”对象
  2. 萃取m
  3. 根据页面结构,构建从1到m的链接列表(例如:www.sample.com/ page 1)
  4. 通过完整的链接列表迭代刮刀
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/5789

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档