这看起来可能是一个空洞的问题,但随着大数据的热议,我很好奇大数据中使用的典型数据集是如何来源的?Twitter关键字似乎是一个常见的来源-但被分析的巨大twitter提要文件的来源是什么?我看到了一个例子,其中有对奥巴马和Romney..has等与选举相关的单词的分析,有人查询了Twitter API,并有效地下载了几of的推文?Twitter甚至想让人们如此猛烈地攻击他们的服务器吗?或者这些数据已经被进行分析的公司“拥有”了。这可能听起来很奇怪,但我见过的大多数文章对这些基本的物理步骤都是模糊的。如有任何有关这些基本问题的好文章或教程的链接,我们将不胜感激。
发布于 2013-05-22 13:51:17
以下是获取大数据来源的一些想法:
正如您所指出的,
在the 1000 genomes project上找到基因组数据
更一般地说,我建议你看看Amazon AWS datasets,如果你不只是在看推特,而是在更广泛的背景下看大数据,它有一堆关于各种主题的大数据。
发布于 2013-05-23 03:41:39
大多数企业都是从Gnip等Twitter Certified数据合作伙伴那里获取社交数据的。
注:我为Gnip工作。
https://stackoverflow.com/questions/16683940
复制相似问题