我被要求评估我们需要用来解决下面描述的问题的可能的技术。可能的选项包括Hadoop、Hive和Pig。我对这两个都没有太多的经验。如果你能指出一个好的阅读来源的话。我在谷歌上搜索了大量的参考文献,但很难找到一步一步的解释或比较。
这是我需要解决的任务。
用户在系统中输入句子。句子按单词拆分,并存储在Cassandra列族中。每一行都是一个单词(键),列名是输入此记录时没有列值的时间戳。
我需要能够查询数据库并从以下细分中提取N个单词:
a_1%必须是从现在到过去的期间T1的最高单词a_2%必须是从现在到过去的期间T2的最高单词a_3%必须是从现在到过去的期间T3的最高单词
从现在到过去,a_n%必须是period T_n中最热门的单词
a_1+a_2+...a_n = 100%
并且T1、T2等是任意的时间间隔。
对于我在这项任务中应该使用的技术选择,任何建议都将不胜感激。我们正在使用Cassandra,我们对它非常熟悉。现在我们需要决定将哪个分析工具放在它上面。
链接或细节将非常感谢。
发布于 2013-03-06 05:39:57
如果你在HIVE中对数据进行了分区(按时间间隔),那么在HIVE中通过一个查询就可以找到这样的“top单词组合”句子。此外,HIVEQL sytnax将来可能会帮助您进行额外的分析,特别是对于了解SQL的人。问题是如何将Cassandra与Hadoop集成。我希望有人能对此说点什么。GL!
编辑的:有一个关于集成Cassandra and HIVE的很好的章节。
发布于 2017-04-05 14:38:07
对于大多数技术人员来说,大数据这个术语并不是很陌生,尽管每个人的脑海中对它都有一些困惑。如果我们从外行的角度来解释这个术语,那么它意味着大量的结构化和非结构化数据。现在,在了解了大数据这个术语的定义后,我们脑海中会出现一个非常常见的问题,那就是我们如何才能获得如此大量的数据?作为对这个问题的回答,我们可以说,当我们与朋友交流时,或者当我们进行一些数字交易时,或者当我们在网上购物时,我们通常会产生数据。
What are the solutions Big Data is providing which seem to be impossible even a few years ago?
我们已经知道,信息、照片、文本、语音和视频数据是大数据的基础,大数据现在已经参与到了许多帮助人类的项目中。
https://stackoverflow.com/questions/15233621
复制相似问题