首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >来自kafka stream的spark应用程序需要很长时间才能产生推荐

来自kafka stream的spark应用程序需要很长时间才能产生推荐
EN

Stack Overflow用户
提问于 2017-11-14 18:08:29
回答 1查看 165关注 0票数 0

我正在从kafka流读取我的spark应用程序中的数据流。我的需求是当用户提出任何请求(搜索/浏览等)时,为他提供产品推荐。

我已经有了一个包含用户分数的训练模型。我使用Java和org.apache.spark.mllib.recommendation.MatrixFactorizationModel模型在我的spark应用程序开始时读取模型一次。每当有任何浏览事件发生时,我都会调用recommendProducts(user_id,num_of_recommended_products) API从我已经训练好的模型中为用户生成推荐。

这个API需要大约3-5秒的时间来生成每个用户的结果,这非常慢,因此我的流处理落后了。有什么方法可以优化这个API的时间吗?我正在考虑将流持续时间从15秒增加到1分钟作为优化(现在还不确定结果)

EN

回答 1

Stack Overflow用户

发布于 2017-11-14 18:16:44

实时调用recommendProducts没有多大意义。由于肌萎缩侧索硬化症模型只能为用户做出预测,这已经在训练数据集中看到了,所以最好是recommendProductsForUser一次,将输出存储在支持按键第一次查找的存储中,并在需要时从那里获取结果。

如果不能选择添加存储层,您还可以获取recommendProductsForUser的输出,按id分区,检查点和缓存预测,然后使用按id的输入流进行join

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47282892

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档