我有超过20K个样本的gwas微阵列实验数据结果。每个样本具有大约1.000.000个标记的数值输出值。所以我有一个20000 x 1000000的理论表。最终目标是创建一个web服务,以便显示少量样本的输出值。我有几十个变量来构建查询。我的问题是如何以一种有效的方式创建这种数据库。对于这么大的数据量,MySQL是最好的选择,还是只依赖于服务器硬件?
提前谢谢。
发布于 2018-02-05 23:56:13
是最好的选择。服务器硬件对效率的影响仅为11%,而选择的数据库管理系统为74%。
尽管MySQL(基于行的MariaDB)完全能够处理海量数据,但ColumnStore数据库管理系统将适合您的需求。
列数据库将数据存储在列中,而不是行中。

在基本级别上,行存储非常适合事务处理。列存储对于高度分析性的查询模型非常有用。行存储能够非常快速地写入数据,而列存储在为列的子集聚合大量数据方面令人惊叹。
列数据库的好处之一是它的查询速度快得离谱。在某些情况下,需要几分钟或几个小时的查询可以在几秒钟内完成。这使得列数据库在查询繁重的环境中是一个很好的选择。但是您必须确保您运行的查询真正适合于列式数据库。
参考链接:Why Should I Check Out a MySQL-Based Column Database?
PS:MariaDB AX是分析的一个很好的选择。
https://stackoverflow.com/questions/48625796
复制相似问题