首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Cassandra、Hadoop Hive或MYSQL?

Cassandra、Hadoop Hive或MYSQL?
EN

Stack Overflow用户
提问于 2010-08-18 05:18:04
回答 3查看 1.9K关注 0票数 3

我正在开发一个网络爬虫,它对存储数据有好处吗?我在我的MySQL数据库中有1TB的过去6个月的数据,我需要索引它们,我需要尽快在我的搜索中输出数据,我认为,它将存储更多的数据,比如10Peta Byes,因为我的爬虫运行得很快,我需要快速获得读/写操作,我需要将其集成到我的PHP中

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-08-18 06:32:46

这取决于您需求的细节,但我认为在您的情况下,HBase将是最好的选择。

使用HBase作为网络爬虫数据库有很好的文档记录,BigTable白皮书中描述了HBase的使用。

票数 3
EN

Stack Overflow用户

发布于 2010-08-20 11:48:07

您正在寻找用于根据文档内容查找文档的东西--它应该基于倒排索引。我认为最自然的选择应该是Lucene

另请参阅关于用于查询of级文档的Hadoop-Lucene堆栈的this article

票数 0
EN

Stack Overflow用户

发布于 2013-10-01 13:07:51

这取决于您的需求,在实时快速分析流数据的情况下使用HBASE。Cassandra最适合快速写入的场景,因为与HBASE相比,它的读取速度较慢。

蜂窝也是一个很好的选择。为了提高蜂巢性能,请使用Impala。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3507030

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档