文章/答案/技术大牛

发布

问大数据-数据从何而来？
EN

Stack Overflow用户

提问于 2013-05-22 13:15:36

回答 2查看 299关注 0票数 0

这看起来可能是一个空洞的问题，但随着大数据的热议，我很好奇大数据中使用的典型数据集是如何来源的？Twitter关键字似乎是一个常见的来源-但被分析的巨大twitter提要文件的来源是什么？我看到了一个例子，其中有对奥巴马和Romney..has等与选举相关的单词的分析，有人查询了Twitter API，并有效地下载了几of的推文？Twitter甚至想让人们如此猛烈地攻击他们的服务器吗？或者这些数据已经被进行分析的公司“拥有”了。这可能听起来很奇怪，但我见过的大多数文章对这些基本的物理步骤都是模糊的。如有任何有关这些基本问题的好文章或教程的链接，我们将不胜感激。

hadoop

twitter

bigdata

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-05-22 13:51:17

以下是获取大数据来源的一些想法：

正如您所指出的，

Twitter是一个获取数据的好地方，有很多有用的分析可以做。如果你使用the online course about Data Science，其中一个任务就是如何从推特获取实时数据进行分析，所以我建议你看看this assignment，因为获取推特实时数据的过程非常详细。你可以让实时流运行几天，它运行的时间越长，可能会产生数十亿字节的数据。
如果你有一个网站，你可以获得web服务器的日志。如果它是一个小网站，这可能不是很多，但对于看到大量流量的大型网站来说，这是一个巨大的数据来源。想一想，如果你有StackOverflow web服务器的logs...
Oceanographic数据，你可以在Marinexplore上找到，他们有一些巨大的数据集，如果你想分析海洋数据，你可以下载并自己分析。例如，搜索引擎使用的
网络爬行数据。你可以在亚马逊S3上看到一些来自网络爬行的开放数据，所以你可以在上面运行你的Common Crawl作业了！你也可以从维基百科上获取数据，here.
Genomic数据现在可以在非常大的范围内获得，你可以通过FTP.
...

在the 1000 genomes project上找到基因组数据

更一般地说，我建议你看看Amazon AWS datasets，如果你不只是在看推特，而是在更广泛的背景下看大数据，它有一堆关于各种主题的大数据。

票数 3

Stack Overflow用户

发布于 2013-05-23 03:41:39

大多数企业都是从Gnip等Twitter Certified数据合作伙伴那里获取社交数据的。

注:我为Gnip工作。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16683940

复制

相似问题

问大数据-数据从何而来？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大数据-数据从何而来？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大数据-数据从何而来？
EN