文章/答案/技术大牛

发布

社区首页 >问答首页 >来自kafka stream的spark应用程序需要很长时间才能产生推荐

问来自kafka stream的spark应用程序需要很长时间才能产生推荐
EN

Stack Overflow用户

提问于 2017-11-14 18:08:29

回答 1查看 165关注 0票数 0

我正在从kafka流读取我的spark应用程序中的数据流。我的需求是当用户提出任何请求(搜索/浏览等)时，为他提供产品推荐。

我已经有了一个包含用户分数的训练模型。我使用Java和org.apache.spark.mllib.recommendation.MatrixFactorizationModel模型在我的spark应用程序开始时读取模型一次。每当有任何浏览事件发生时，我都会调用recommendProducts(user_id，num_of_recommended_products) API从我已经训练好的模型中为用户生成推荐。

这个API需要大约3-5秒的时间来生成每个用户的结果，这非常慢，因此我的流处理落后了。有什么方法可以优化这个API的时间吗？我正在考虑将流持续时间从15秒增加到1分钟作为优化(现在还不确定结果)

java

apache-spark

apache-kafka

matrix-factorization

回答 1

Stack Overflow用户

发布于 2017-11-14 18:16:44

实时调用recommendProducts没有多大意义。由于肌萎缩侧索硬化症模型只能为用户做出预测，这已经在训练数据集中看到了，所以最好是recommendProductsForUser一次，将输出存储在支持按键第一次查找的存储中，并在需要时从那里获取结果。

如果不能选择添加存储层，您还可以获取recommendProductsForUser的输出，按id分区，检查点和缓存预测，然后使用按id的输入流进行join。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47282892

复制

相似问题

问来自kafka stream的spark应用程序需要很长时间才能产生推荐
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问来自kafka stream的spark应用程序需要很长时间才能产生推荐EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问来自kafka stream的spark应用程序需要很长时间才能产生推荐
EN