我正在从事一个项目,需要访问约1000个网站,并从每个网站提取信息。该信息是官员在其政治任期内的开始和结束日期。
我的编程经验有限。R是一个统计软件包,我认为它更容易学习。Python会更强大。但学习的时间将是相当长的。
我的问题是,R是否足以处理这项任务。如果是,将涉及哪些软件包。在R中有没有一些关于web抓取的有用教程可以推荐。我正在读http://www.r-bloggers.com/。如果没有,有什么关于Python网络抓取的教程值得推荐吗?
发布于 2014-04-15 22:08:12
是的,R对于你的任务来说是足够的。您可以使用"XML“包。看看这个quick guide。
对于您的任务,R或python是最好的工具取决于您在下载数据后想要如何处理数据。
发布于 2014-04-15 21:53:53
在这种情况下,Python将是我的首选。R不是一种容易学习的语言,而Python就是这样设计的。你会发现大量的教程可以帮助你入门。
发布于 2014-04-15 21:54:05
我认为python有足够的资源可以让你在一天到几天内完成你想要做的事情。web上有大量的示例代码和足够的python库,让抓取网站变得轻而易举。看看requests、Beautiful Soup和lxml
https://stackoverflow.com/questions/23085686
复制相似问题