首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大数据-数据从何而来?

大数据-数据从何而来?
EN

Stack Overflow用户
提问于 2013-05-22 13:15:36
回答 2查看 299关注 0票数 0

这看起来可能是一个空洞的问题,但随着大数据的热议,我很好奇大数据中使用的典型数据集是如何来源的?Twitter关键字似乎是一个常见的来源-但被分析的巨大twitter提要文件的来源是什么?我看到了一个例子,其中有对奥巴马和Romney..has等与选举相关的单词的分析,有人查询了Twitter API,并有效地下载了几of的推文?Twitter甚至想让人们如此猛烈地攻击他们的服务器吗?或者这些数据已经被进行分析的公司“拥有”了。这可能听起来很奇怪,但我见过的大多数文章对这些基本的物理步骤都是模糊的。如有任何有关这些基本问题的好文章或教程的链接,我们将不胜感激。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-05-22 13:51:17

以下是获取大数据来源的一些想法:

正如您所指出的,

  • Twitter是一个获取数据的好地方,有很多有用的分析可以做。如果你使用the online course about Data Science,其中一个任务就是如何从推特获取实时数据进行分析,所以我建议你看看this assignment,因为获取推特实时数据的过程非常详细。你可以让实时流运行几天,它运行的时间越长,可能会产生数十亿字节的数据。
  • 如果你有一个网站,你可以获得web服务器的日志。如果它是一个小网站,这可能不是很多,但对于看到大量流量的大型网站来说,这是一个巨大的数据来源。想一想,如果你有StackOverflow web服务器的logs...
  • Oceanographic数据,你可以在Marinexplore上找到,他们有一些巨大的数据集,如果你想分析海洋数据,你可以下载并自己分析。例如,搜索引擎使用的
  • 网络爬行数据。你可以在亚马逊S3上看到一些来自网络爬行的开放数据,所以你可以在上面运行你的Common Crawl作业了!你也可以从维基百科上获取数据,here.
  • Genomic数据现在可以在非常大的范围内获得,你可以通过FTP.
  • ...

the 1000 genomes project上找到基因组数据

更一般地说,我建议你看看Amazon AWS datasets,如果你不只是在看推特,而是在更广泛的背景下看大数据,它有一堆关于各种主题的大数据。

票数 3
EN

Stack Overflow用户

发布于 2013-05-23 03:41:39

大多数企业都是从GnipTwitter Certified数据合作伙伴那里获取社交数据的。

注:我为Gnip工作。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16683940

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档