因此,我一直在四处寻找,试图弄清楚如何提取一些特定的数据,例如文本,并将这些数据推送到组织数据的程序中。
因此,如果您以homedepot.com为例,并且希望从"2x4木头“下面列出的每个项目中提取数据,那么您需要获取名称、描述和规范,并将这些数据导入到包含这些数据的软件中。
所以我猜这就像是自动数据录入?
根据我的研究,我需要编写一个爬虫程序,它被设计为搜索特定的术语,然后爬行结果返回的每一个页面,并获取我需要的数据。
然而,我有一个小问题:我真的不知道任何编程/脚本编写,也不确定从哪里开始。我发现了一个名为Scrapy的东西,它是基于Python的。这是我想要用于爬虫的东西吗?
我的下一个问题是,我不知道如何将收集的数据导入到软件中?关于我应该在哪里找到这个答案,有什么建议吗?
我想使用这个想法,即我必须帮助我学习如何编写脚本。
发布于 2013-05-16 11:41:15
嗯,你可能应该从学习语言开始,这将使它更容易做到
但是对于Web内容,您可以使用名为urllib和urllib2的东西,它们可以打开浏览器来获取数据,而无需实际打开窗口
此外,还有一些自动化的web浏览器,如selenium,它实际上会打开窗口
你可以在互联网上浏览到很多其他的东西。
但这只是web浏览器的自动化,然后你必须实际获得你想要的信息和数据为此你需要像你说的那样的东西,比如scrapy或者漂亮的汤,它们通过源代码,挑选出你想要的信息
因为我不知道你到底想要什么,所以很难解释,但我希望这能给你一个起点
但是,正如我所说的,您可能应该学习基本的python,这将会有很大帮助。
我希望这对你有帮助!
发布于 2013-05-16 12:28:46
另一个选择是Beautiful Soup。Python是一种快速学习的语言,注重可读性和简单性。有许多在线资源可以用来学习python。我推荐Learn Python the Hard Way。
https://stackoverflow.com/questions/16578545
复制相似问题