我正在建立一个系统来分析关于证券交易价格的大量金融数据。这方面的一个很大的挑战是确定对数据使用哪种存储方法,假设数据将在10兆兆字节的范围内。在数据上会有许多查询,比如取平均值,计算标准差,以及按多列过滤的总和,如价格、时间、成交量等。连接语句不是必需的,但如果有就更好了。
现在,我正在研究infobright社区版、monetdb和greenplum社区版以进行评估。到目前为止,它们看起来很棒,但对于更高级的功能,其中一些是必需的,在某些版本中是不可用的(使用多个服务器、插入/更新语句等)。
对于这种情况,您会使用什么解决方案,它提供了哪些替代方案所不具备的优势?性价比高是一个主要的加分。如果我必须为数据仓库解决方案付费,我会的,但我更愿意避免它,如果可能的话,我会选择开源/社区版的路线。
发布于 2012-04-24 03:24:05
Infobright提供了快速的查询性能,无需对大量数据进行调优、投影和索引。在数据加载方面,我见过每小时可以加载80TB数据的实例,每秒超过12,000次插入。
它怎麽工作?
<代码>G29
我仍然建议您考虑考虑企业许可,但您肯定可以评估社区版,并根据它测试您的性能和数据加载需求。
免责声明:作者隶属于Infobright。
发布于 2012-03-30 22:13:38
我认为你提到的任何一个数据库都能满足你的需求。如果您正在处理价值10 TB的数据,那么获得在MPP集群中运行的企业许可证可能是一种很好的资金利用方式,可以缩短处理时间。此外,如果此DW将为您的组织执行重要的处理,则拥有许可证意味着您将获得供应商的支持,这对许多企业都很重要。YMMV.
一个更重要的问题是,您的数据摄取率将是什么样子?对于金融系统,我认为等式的很大一部分应该是在继续进行正常处理的同时,将新数据加载到系统中的能力。
我只熟悉您的候选列表中的Greenplum,但我知道它在短时间内加载大量数据方面做得很好。GP还有许多内置的统计和分析函数,您可以在数据库中本地运行,包括内置的SQL函数、MADLib、R等。
https://stackoverflow.com/questions/9848303
复制相似问题