我们正在建立简历评分服务,我们正在使用Postgres进行复杂的查询,以找到最匹配职位空缺的简历。问题是,我们使用一组非常复杂的启发式方法来给简历打分,而且每个查询要打分的简历的平均数量正在增长。我想把这种负载放在数据库之外,并寻找现有的解决方案来水平扩展这种负载。查询应该在几分之一秒内执行,可能会有数百个并发查询。每个查询的平均得分为10k个cvs。在其当前的关系形式中,每个简历大约相当于10个表中的50条记录。
我希望集群系统在多个并行进程(在多个服务器上)中运行每个查询,并返回聚合结果。它应该是快速和容错的。我一直在寻找Hadoop,但它看起来是为批处理而设计的,而不是为实时低延迟加载而设计的。有Apache Storm,但它是为连续流处理而设计的。所以我不是舒尔:)
什么样的工具可以满足我的需求?谢谢!
发布于 2015-05-15 12:14:17
确保你没有重做工作,如果一份简历已经被标记为已评分,不要重新处理,除非它是necessary.
我肯定会从1开始,除非迫不得已,否则不要工作。
https://stackoverflow.com/questions/30251280
复制相似问题