首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >约7GB数据仓库的解决方案

约7GB数据仓库的解决方案
EN

Software Recommendation用户
提问于 2018-07-05 08:55:37
回答 1查看 51关注 0票数 1

我们最近在Azure平台上部署了一个新的“数据湖”。决策过程很混乱,我无法摆脱这样一种感觉:我们买了一个昂贵、笨重的数据库,而我们有更好、更便宜的选择。

我们的需求是非常基本的:我们有大约7 GB的数据,其中大部分来自每日数据库转储(CSV)。

数据用于报告(目前,查询结果被导出到excel,将来将使用类似PowerBi )和分析。根据我们目前拥有的数据量,像Cloudera或MapR这样的完整的大数据解决方案是不必要的(但我可能错了)。

在我们当前的解决方案中,读取CSV转储和数据库的ETL进程由第三方管理。使用或SquirrelSQL,我们可以运行查询并导出结果。我们可以对部分数据库进行写入访问,我需要能够设计ETL进程来补充已经存在的数据。

这是第一个故障:我无法自动/编程地将平面文件中的内容读入DB。此外,DB不是特别快,我们在实现日志/审计跟踪时遇到了困难。

根据我的经验,CentOS上的Postgres是快速的,并且记录DB访问的速度非常快。自动导入平面文件也没有问题。

有什么比我们目前的Azure设置更好的解决方案?

EN

回答 1

Software Recommendation用户

发布于 2018-07-05 14:40:34

如果您的平面文件是CSV,mysql有一个内置导入工具,我相信其他产品也有类似的特性。

当然可以设置日志记录。

现在,有了这个小数据集,如果您是本地硬件,您就有许多选择。

  1. SSD有500-550 SSD/S
  2. M.2 SSD 2000-3000 M.2/S
  3. 将RAM添加到计算机中,并设置RAM驱动器。

由于你正在使用云,你可能会被你的互联网的速度所阻碍。

此外,适当设计的数据库也会影响速度。了解何时以及如何创建索引以加快数据访问速度。可以做很多事情来优化SQL培训人员的查询。

票数 1
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/50972

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档