我们最近在Azure平台上部署了一个新的“数据湖”。决策过程很混乱,我无法摆脱这样一种感觉:我们买了一个昂贵、笨重的数据库,而我们有更好、更便宜的选择。
我们的需求是非常基本的:我们有大约7 GB的数据,其中大部分来自每日数据库转储(CSV)。
数据用于报告(目前,查询结果被导出到excel,将来将使用类似PowerBi )和分析。根据我们目前拥有的数据量,像Cloudera或MapR这样的完整的大数据解决方案是不必要的(但我可能错了)。
在我们当前的解决方案中,读取CSV转储和数据库的ETL进程由第三方管理。使用或SquirrelSQL,我们可以运行查询并导出结果。我们可以对部分数据库进行写入访问,我需要能够设计ETL进程来补充已经存在的数据。
这是第一个故障:我无法自动/编程地将平面文件中的内容读入DB。此外,DB不是特别快,我们在实现日志/审计跟踪时遇到了困难。
根据我的经验,CentOS上的Postgres是快速的,并且记录DB访问的速度非常快。自动导入平面文件也没有问题。
有什么比我们目前的Azure设置更好的解决方案?
发布于 2018-07-05 14:40:34
如果您的平面文件是CSV,mysql有一个内置导入工具,我相信其他产品也有类似的特性。
当然可以设置日志记录。
现在,有了这个小数据集,如果您是本地硬件,您就有许多选择。
由于你正在使用云,你可能会被你的互联网的速度所阻碍。
此外,适当设计的数据库也会影响速度。了解何时以及如何创建索引以加快数据访问速度。可以做很多事情来优化SQL培训人员的查询。
https://softwarerecs.stackexchange.com/questions/50972
复制相似问题