首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大数据分析技术选择

大数据分析技术选择
EN

Stack Overflow用户
提问于 2013-03-06 04:38:07
回答 2查看 410关注 0票数 0

我被要求评估我们需要用来解决下面描述的问题的可能的技术。可能的选项包括Hadoop、Hive和Pig。我对这两个都没有太多的经验。如果你能指出一个好的阅读来源的话。我在谷歌上搜索了大量的参考文献,但很难找到一步一步的解释或比较。

这是我需要解决的任务。

用户在系统中输入句子。句子按单词拆分,并存储在Cassandra列族中。每一行都是一个单词(键),列名是输入此记录时没有列值的时间戳。

我需要能够查询数据库并从以下细分中提取N个单词:

a_1%必须是从现在到过去的期间T1的最高单词a_2%必须是从现在到过去的期间T2的最高单词a_3%必须是从现在到过去的期间T3的最高单词

从现在到过去,a_n%必须是period T_n中最热门的单词

a_1+a_2+...a_n = 100%

并且T1、T2等是任意的时间间隔。

对于我在这项任务中应该使用的技术选择,任何建议都将不胜感激。我们正在使用Cassandra,我们对它非常熟悉。现在我们需要决定将哪个分析工具放在它上面。

链接或细节将非常感谢。

EN

回答 2

Stack Overflow用户

发布于 2013-03-06 05:39:57

如果你在HIVE中对数据进行了分区(按时间间隔),那么在HIVE中通过一个查询就可以找到这样的“top单词组合”句子。此外,HIVEQL sytnax将来可能会帮助您进行额外的分析,特别是对于了解SQL的人。问题是如何将Cassandra与Hadoop集成。我希望有人能对此说点什么。GL!

编辑的:有一个关于集成Cassandra and HIVE的很好的章节。

票数 2
EN

Stack Overflow用户

发布于 2017-04-05 14:38:07

对于大多数技术人员来说,大数据这个术语并不是很陌生,尽管每个人的脑海中对它都有一些困惑。如果我们从外行的角度来解释这个术语,那么它意味着大量的结构化和非结构化数据。现在,在了解了大数据这个术语的定义后,我们脑海中会出现一个非常常见的问题,那就是我们如何才能获得如此大量的数据?作为对这个问题的回答,我们可以说,当我们与朋友交流时,或者当我们进行一些数字交易时,或者当我们在网上购物时,我们通常会产生数据。

What are the solutions Big Data is providing which seem to be impossible even a few years ago?

我们已经知道,信息、照片、文本、语音和视频数据是大数据的基础,大数据现在已经参与到了许多帮助人类的项目中。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15233621

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档