首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >网络抓取协助

网络抓取协助
EN

Stack Overflow用户
提问于 2014-06-08 04:40:55
回答 1查看 74关注 0票数 0

我是个完全的新手。没有计算机编程经验。因此,学习任何东西的机会成本--比如Scrapy --是非常高的,所以我不想花几个小时做死胡同的工作(,我整天都在安装Scrapy,因为我是个白痴)。

我的研究包括从慈善组织(http://www.charitynavigator.org/)数据库中收集数据。基本上,我的程序需要能够查看连接到慈善机构“概况介绍”的链接列表;然后,该程序需要提取所需的数据,并将这些数据分类。

,我的主要技术问题是,可以像Scrapy这样的程序认识到,在一个术语(资产)旁边的一个数字( 100,000 )意味着慈善机构拥有10万美元的资产。或者至少把10万列在资产类别中?

为这个问题的琐碎性质道歉。我只是很累。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-06-08 10:41:21

回答你的问题:

我的主要技术问题是,像Scrapy这样的项目能否认识到,在一个术语(资产)旁边的数字( 100,000 )意味着慈善机构拥有10万美元的资产。或者至少把10万列在资产类别中?

是的可以。我简要地看了一下那个网站,它看起来并不是太糟糕。财务数据似乎都采取了如下形式:

代码语言:javascript
复制
      <tr>
        <td>&nbsp;&nbsp;&nbsp;Contributions, Gifts &amp; Grants</td>
        <td align="right">$186,659,755</td>
      </tr>

正如您所看到的,所有财务数字都与描述它们的元素配对。尽管如此,对于没有编程经验的人来说,编写这样一个刮板(特别是使用Scrapy)是很困难的。

假设你珍惜你的时间,你最好用手工将数字输入到Excel电子表格中,或者付钱给别人。你也可以考虑付钱给别人给你写刮刀。

刮擦是惊人的,并使许多事情更容易做,但有很多认知过载的非程序员学习,只是写一个刮板。特别是考虑到你不会充分利用这些特性,Scrapy补充说,只是从零开始编写一些东西。如果您确实决定这样做,我建议使用lxml从页面中提取您想要的数据。

我建议您首先使用学习Python,然后是了解发电机。(它们在整个Scrapy中被广泛使用)一旦您完成了这两项工作,请通过官方刮伤教程进行操作。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24103062

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档