首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >网络规模分析应用的数据库选择

网络规模分析应用的数据库选择
EN

Stack Overflow用户
提问于 2010-12-16 08:52:37
回答 3查看 1K关注 0票数 7

我想构建一个类似Google的web应用程序,在该应用程序中,我收集客户最终用户的统计数据,并根据这些数据显示我的客户分析。

特点:

  • 高可伸缩性,处理体积大。
  • 分区化-查询总是在单个客户的数据上运行
  • 支持分析性查询(钻取、切片等)

由于分析需要,我正在考虑使用OLAP/BI套件,但我不确定它是否适合这种规模。NoSQL数据库?简单的RDBMS就行了?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-12-16 09:14:20

这些是我在生产环境中使用的东西,它的作用就像一种魅力。

我做了三件事

PostgreSQL + LucidDB + Mondrian (更广泛地说是整个五旬斋BI套件组件)

  • PostgreSQL:我不打算描述postgresql,非常强大的开源关系数据库管理系统将允许您--当然--做您需要的一切。我用它来存储我的操作数据。
  • LucidDB:LucidDB是一个开源的列存储数据库.与PostgreSQL相比,它具有很高的可伸缩性,并将为获取大量数据提供真正的处理时间。它不是为事务处理而优化的,而是用于密集读取的。这是我的数据仓库数据库
  • 蒙德里安:Mondrian是一个开源的R多维数据集.LucidDB使得将这两个程序连接在一起变得很容易。

我建议你看看整个五旬节BI套房,这是值得的,你可能想要使用其中的一些组件。

希望我能帮上忙

票数 4
EN

Stack Overflow用户

发布于 2012-06-12 20:40:36

有两种主要的架构你可以选择真正的网络规模:

1。"BI“架构

  • 事件记录器(例如LWES期刊)或不可变事件存储(例如HDFS)提要
  • 分析/列存储数据库(例如格林梅、InfiniDB、LucidDB知音)提要
  • 商业情报报告工具(例如微观战略宾得商业分析)

2."NoSQL“架构

  • (可选)事件记录器或不可变事件存储提要
  • NoSQL数据库(如卡桑德拉、Riak、HBase)提要
  • 自定义分析用户界面(例如使用D3.js)

不可变的事件存储区或记录器存在于此,因为在大多数情况下,您希望对分析事件进行批处理,并对数据库进行批量更新(即使使用HDFS之类的内容),而不是对每个页面视图执行原子写入等操作。

对于我们构建在Hadoop和Hive上的开源分析平台SnowPlow,事件日志都是在批量加载到Hive之前首先在S3上收集的。

请注意,"NoSQL体系结构“将涉及更多的开发工作。请记住,在这两种架构中,如果卷增长得非常惊人(每个客户的行数为数十亿行),您总是可以按客户进行拆分--因为没有必要(我猜)需要跨客户分析。

票数 2
EN

Stack Overflow用户

发布于 2010-12-17 04:14:14

我想说的是,OLAP分析总是很好,然后有很大的潜力使用MDX进行复杂的数据分析。

  • 你说大容量是什么意思?
  • 你的客户用户信息在哪里?
  • 你打算用什么样的前端和报告?

干杯。

免责声明:我会为我自己的解决方案做一些宣传-看看www.icCube.com,并联系我获得更多的细节

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4458921

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档