我使用JanusGraph / 星云图来计算超大型数据集(数千亿页,数万亿边缘)的页面排名。每天都有数以千万计的新页面被编入索引&我希望将新页面添加到图表中,并更新所有现有页面的页面级别(因为新页面可以包含指向以前索引页面的链接,反之亦然)。但是,我不想从头开始计算所有现有页面的PageRank。我只想将新的数据输入到系统中,并根据新的数据计算现有页面的PageRank。换句话说,我不想每天从头开始执行相同的计算。
是否有一种方法可以保存现有的页面排名模型,使我只需要计算新索引页面的PageRank,w/o就可以从头开始这个过程?
发布于 2022-05-18 05:54:59
当然,下面的文章应该提供相关链接:MapReduce
至于实现,Apache TinkerPop允许运行自定义VertexProgram。
https://stackoverflow.com/questions/72278334
复制相似问题