我正在开发一个网络爬虫,它对存储数据有好处吗?我在我的MySQL数据库中有1TB的过去6个月的数据,我需要索引它们,我需要尽快在我的搜索中输出数据,我认为,它将存储更多的数据,比如10Peta Byes,因为我的爬虫运行得很快,我需要快速获得读/写操作,我需要将其集成到我的PHP中
发布于 2010-08-18 06:32:46
这取决于您需求的细节,但我认为在您的情况下,HBase将是最好的选择。
使用HBase作为网络爬虫数据库有很好的文档记录,BigTable白皮书中描述了HBase的使用。
发布于 2010-08-20 11:48:07
您正在寻找用于根据文档内容查找文档的东西--它应该基于倒排索引。我认为最自然的选择应该是Lucene。
另请参阅关于用于查询of级文档的Hadoop-Lucene堆栈的this article。
发布于 2013-10-01 13:07:51
这取决于您的需求,在实时快速分析流数据的情况下使用HBASE。Cassandra最适合快速写入的场景,因为与HBASE相比,它的读取速度较慢。
蜂窝也是一个很好的选择。为了提高蜂巢性能,请使用Impala。
https://stackoverflow.com/questions/3507030
复制相似问题