文章/答案/技术大牛

发布

社区首页 >问答首页 >约7GB数据仓库的解决方案

问约7GB数据仓库的解决方案
EN

Software Recommendation用户

提问于 2018-07-05 08:55:37

回答 1查看 51关注 0票数 1

我们最近在Azure平台上部署了一个新的“数据湖”。决策过程很混乱，我无法摆脱这样一种感觉:我们买了一个昂贵、笨重的数据库，而我们有更好、更便宜的选择。

我们的需求是非常基本的:我们有大约7 GB的数据，其中大部分来自每日数据库转储(CSV)。

数据用于报告(目前，查询结果被导出到excel，将来将使用类似PowerBi )和分析。根据我们目前拥有的数据量，像Cloudera或MapR这样的完整的大数据解决方案是不必要的(但我可能错了)。

在我们当前的解决方案中，读取CSV转储和数据库的ETL进程由第三方管理。使用或SquirrelSQL，我们可以运行查询并导出结果。我们可以对部分数据库进行写入访问，我需要能够设计ETL进程来补充已经存在的数据。

这是第一个故障:我无法自动/编程地将平面文件中的内容读入DB。此外，DB不是特别快，我们在实现日志/审计跟踪时遇到了困难。

根据我的经验，CentOS上的Postgres是快速的，并且记录DB访问的速度非常快。自动导入平面文件也没有问题。

有什么比我们目前的Azure设置更好的解决方案？

linux

database

postgresql

回答 1

Software Recommendation用户

发布于 2018-07-05 14:40:34

如果您的平面文件是CSV，mysql有一个内置导入工具，我相信其他产品也有类似的特性。

当然可以设置日志记录。

现在，有了这个小数据集，如果您是本地硬件，您就有许多选择。

SSD有500-550 SSD/S
M.2 SSD 2000-3000 M.2/S
将RAM添加到计算机中，并设置RAM驱动器。

由于你正在使用云，你可能会被你的互联网的速度所阻碍。

此外，适当设计的数据库也会影响速度。了解何时以及如何创建索引以加快数据访问速度。可以做很多事情来优化SQL培训人员的查询。

票数 1

页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://softwarerecs.stackexchange.com/questions/50972

复制

相似问题

问约7GB数据仓库的解决方案
EN

回答 1

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问约7GB数据仓库的解决方案EN

回答 1

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问约7GB数据仓库的解决方案
EN