我在想,如果你愿意的话,你能不能帮我提个简短的问题(如果你愿意的话,我很乐意解释更多)。我正在研究和建立一个系统来做机器学习工作(培训),以找出社交媒体(或其他可穿戴设备的数字记录)之间的关联。用户的信息和他在个性测试中的分数。
分数在我的Postgresql中(在AWS上),我需要决定如何从可穿戴设备(非结构化和结构化的)存储社交媒体/数字记录。我在想DynamoDB。
我还考虑在Amazon下集成两个数据库,并从那里进行分析(使用RapidMinder)……这一切都有意义吗?我真的需要一个数据仓库吗?在没有数据仓库的情况下,只使用一个DB (Postgresql或Dynamo)是否更明智?对我来说,我说的差不多是100 K的记录(为了训练).未来的数据将以百万计。
我得到了很多相互矛盾的答案,我希望也会感谢你的好意和建议。提前谢谢你!
发布于 2019-08-08 14:38:18
datawarehouse的主要目的是能够快速(接近实时)聚合不同类型的数据和列。存储能力不是数据仓库试图解决的问题。我不能真正回答您的问题,因为我不太清楚您想要执行的分析量,但是如果它是为了一遍又一遍地训练一个模型(在线学习),那么就设置一个完整的管道来应用您想要的转换( ETL部分)、模型、培训和运行您想要的预测方法多少次。
https://datascience.stackexchange.com/questions/57234
复制相似问题