我是个完全的新手。没有计算机编程经验。因此,学习任何东西的机会成本--比如Scrapy --是非常高的,所以我不想花几个小时做死胡同的工作(前,我整天都在安装Scrapy,因为我是个白痴)。
我的研究包括从慈善组织(http://www.charitynavigator.org/)数据库中收集数据。基本上,我的程序需要能够查看连接到慈善机构“概况介绍”的链接列表;然后,该程序需要提取所需的数据,并将这些数据分类。
,我的主要技术问题是,可以像Scrapy这样的程序认识到,在一个术语(资产)旁边的一个数字( 100,000 )意味着慈善机构拥有10万美元的资产。或者至少把10万列在资产类别中?
为这个问题的琐碎性质道歉。我只是很累。
发布于 2014-06-08 10:41:21
回答你的问题:
我的主要技术问题是,像Scrapy这样的项目能否认识到,在一个术语(资产)旁边的数字( 100,000 )意味着慈善机构拥有10万美元的资产。或者至少把10万列在资产类别中?
是的可以。我简要地看了一下那个网站,它看起来并不是太糟糕。财务数据似乎都采取了如下形式:
<tr>
<td> Contributions, Gifts & Grants</td>
<td align="right">$186,659,755</td>
</tr>正如您所看到的,所有财务数字都与描述它们的元素配对。尽管如此,对于没有编程经验的人来说,编写这样一个刮板(特别是使用Scrapy)是很困难的。
假设你珍惜你的时间,你最好用手工将数字输入到Excel电子表格中,或者付钱给别人。你也可以考虑付钱给别人给你写刮刀。
刮擦是惊人的,并使许多事情更容易做,但有很多认知过载的非程序员学习,只是写一个刮板。特别是考虑到你不会充分利用这些特性,Scrapy补充说,只是从零开始编写一些东西。如果您确实决定这样做,我建议使用lxml从页面中提取您想要的数据。
我建议您首先使用学习Python,然后是了解发电机。(它们在整个Scrapy中被广泛使用)一旦您完成了这两项工作,请通过官方刮伤教程进行操作。
https://stackoverflow.com/questions/24103062
复制相似问题