馈送Hadoop集群并使用该集群将数据馈送到Vertica/InfoBright数据仓库有什么意义?
所有的供应商都在说“我们可以连接Hadoop",但我不明白这有什么意义。在Hadoop中存储并迁移到InfoBright中有什么意义?为什么不让应用程序直接存储在Infobright/Vertica DW中?
谢谢!
发布于 2011-11-28 10:08:27
为什么要组合这些解决方案?使用Infobright,在Hadoop中需要30分钟到数小时的查询可以在10秒内完成。
顺便说一句,您最初的问题并不是以MPP架构为前提的,这是有充分理由的。Infobright的客户包括Liverail、Hadoop和InMobi等,他们都使用带有AdSafe的IEE。
如果您注册了行业白皮书http://support.infobright.com/Support/Resource-Library/Whitepapers/,您将看到当前市场的视图,其中概述了Hadoop的四个建议用例。它是由Wayne Eckerson撰写的,他是TechTarget研究、业务应用和架构组的总监,在2011年9月。
1)创建在线归档。
使用Hadoop,组织不必删除数据或将数据发送到脱机存储;他们可以通过添加商用服务器来满足存储和处理需求,从而无限期地保持数据在线。
2)馈送数据仓库。
组织还可以使用Hadoop解析、集成和聚合大量Web或其他类型的数据,然后将其传送到数据仓库,在数据仓库中,普通用户和高级用户都可以使用熟悉的BI工具查询和分析数据。在这里,Hadoop成为了一个ETL工具,用于在大量Web数据进入企业数据仓库之前对其进行处理。
3)支持分析。
大数据群体(即Internet开发人员)主要将Hadoop视为针对大量数据运行分析计算的分析引擎。这样做的好处是,分析人员在制定查询时不会受到SQL的限制。SQL不支持许多类型的分析,尤其是那些涉及Web流量分析中常见的行间计算的分析。缺点是Hadoop是面向批处理的,不利于迭代查询。
4)运行报告。
组织现在可以针对原始数据运行报告,而不是针对摘要数据运行报告,从而保证最准确的结果。
发布于 2011-11-26 01:28:14
您可能希望这样做的原因有几个: 1.每TB的成本。Hadoop的存储成本比Vertica/Netezza/greenplum等要便宜得多)。您可以在Hadoop中获得长期保留,在分析DB中获得短期数据2. hadoop中的数据摄取功能(执行转换)在Hadoop中更好3.编程分析(库,如Mahout ),因此您可以构建高级文本分析4.处理非结构化数据
MPP数据库在即席查询中提供了更好的性能,可以更好地处理结构化数据以及与传统BI工具(OLAP和报告)的连接-因此,Hadoop基本上是对这些数据库的补充
发布于 2012-10-05 21:09:24
Hadoop与其说是一个数据库,不如说是一个平台。
可以将Hadoop看作是一个整洁的文件系统,它支持对不同文件类型的大量查询。考虑到这一点,大多数人将原始数据转储到Hadoop上,并将其用作数据管道中的中转层,在那里它可以消化数据并将其推送到其他系统,如vertica或任何其他系统。您有几个可以恢复到解耦的优点。
因此,Hadoop正在转变为大数据的实际存储平台。它简单、容错、可伸缩性好,并且很容易馈送和从中获取数据。因此,大多数供应商都试图将产品推向可能安装了Hadoop的公司。
https://stackoverflow.com/questions/8267970
复制相似问题