我试图找出在sql数据库中实现处理队列机制的最有效和可伸缩的方法。它的不足是,我有一堆“域”对象与相关的‘反向链接’统计。我想找出有效的领域需要处理他们的反向链接。
域表: id,domainName
反向链接表: id、domainId、count、checkedTime
反向链接表对一个域记录有许多记录(以保存历史记录)。我需要有效地选择域,是因为他们的反向链接处理。这可能意味着使用最近的checkedTime的反向链接记录在过去已经足够远了,或者对于域记录根本没有反向链接记录。需要根据多个因素对域进行排序,包括先由最老的checkedTime排序。
有多个“读者”处理域。如果同一个域被处理了两次,这不是什么大问题,但这是对cpu周期的浪费。
工作人员需要不确定的时间来处理域。我更希望有一些备份,因为签出将“过期”,而不是要求工作进程在完成时显式“签入”记录,以防工作人员因某种原因而失败。
这里的大问题是缩放。从一开始,我就可以轻松地拥有大约200万个域名,而且这个数字每天都会不断增长。这意味着我的反向链接历史也将迅速增长,因为我希望在某些情况下每天处理,而其他情况每周为每个领域。问题是,找到需要反向链接处理的域的最有效方法是什么?
谢谢你的帮忙!
发布于 2011-01-12 14:18:23
我决定把事情安排得有点不同。我不是根据几个表的标准找到需要处理的域,而是为给定的域分配每个度量需要处理的日期。这使得查找那些需要处理的域的查询更加简单。
最后,我使用了批处理的思想,在其中找到要处理的域,将其标记为由批处理id处理,然后将这些域返回给工作人员。当工作人员完成时,它将返回结果,并删除批处理,并且域将自然地准备好在将来再次进行处理。
https://stackoverflow.com/questions/4278733
复制相似问题