我正在尝试构建一个分布式系统来运行一些性能密集型的计算。一个计算可以在多个工作节点并行进行。问题是,由于数据源一直在实时变化,我们希望每个工作节点(在单个计算期间)在相同的数据“版本”上操作,即数据库的实时快照。这是为了避免结果不一致。
另一个问题是,每一次计算的全部输入数据集可能非常大,因此目前我们在每个工作节点上保留了一个本地缓存,该缓存定期刷新内容,因为当前本地缓存版本向数据源请求" diffs“,并将差异应用于本地缓存。
有哪些设计策略可以达到这样的要求:每个工作节点都看到相同的“版本”数据(同时仍然有合理的新鲜数据)?我在下面考虑了一个解决方案,但想看看这是否是一个已经解决的常见模式:
该系统的一些估计参数:
发布于 2016-08-08 12:59:12
如果您没有绑定到MySQL,并且可以使用Oracle,那么有一个简单的解决方案:
(我还没有找到MySQL的回放,如果你知道这方面的马达,请发表评论。)您不必创建手动快照等。您可以将其用于单个数据库服务器,并且您的所有进程都可以读取数据,因为它是在所需的时间中表示的。这个解决方案是相当干净和健壮的,但需要许可证。
如果我是你,我会尽量后退一步,尽量简化这个问题。如果不同的工人可以并行运行,则应适用以下规定:
如果这两个要求都是有效的,您可以使用单个数据库来存储计算等。您唯一需要关心的是,事务应该仔细规划。
另一方面,在一个simmilar项目中,我们使用了一个小技巧来实现这一点(作为闪回解决方案):数据库中也存储了插入时间。(而更新实际上是用新的时间戳插入的。)所有的计算等都是根据准确的记录进行的,方法是将
请给我x时间戳之前这类行的最后一个版本。
使用此解决方案,我们避免了许可成本和快照维护。唯一的问题是,如果您不需要整个历史记录,它将占用您的数据库空间太快。为了解决这个问题,我们做了一个cron作业,根据时间戳清除未使用的记录。
如果你想得到更多,有一个叫做影子表的东西。有一篇关于这个主题的不错的MySQL博客文章:http://arnab.org/blog/shadow-tables-using-mysql-triggers
发布于 2016-08-08 18:14:16
我觉得你太复杂了。对于您的任务,您只需要存储和区分当前和最新版本的数据。因此,您的脚本应该:
https://stackoverflow.com/questions/38666043
复制相似问题