我正致力于自动生成餐厅评级,我有各种特征值,如送货时间、成本估算等。我想为每一家餐厅生成0到5之间的评级。但我没有任何培训数据或基本事实可供验证。此评等可能因用户而异。大部分相关工作,大多与Yelp数据挑战相关,都有一定的相关得分作为训练数据。我想使用强化学习来学习与用户反馈的评级,但不确定如何做到这一点。有人能为这个问题提出一个相关的技术或算法吗?
发布于 2015-06-12 11:25:02
如果您通过强化学习来建模您的系统,您将使您的系统从用户的反馈中学习。系统将提供基于输入功能的评级(可能只是第一阶段的随机评级,因为您没有任何先前的信息),然后用户会告诉系统它对这种评级的预测有多好。基于建议和实际用户评分的差异,强化学习算法将改进推荐系统的模型,为将来提供更准确的评分。
萨顿的“强化学习”(http://incompleteideas.net/book/the-book-2nd.html)是对强化学习领域的一个很好的介绍。
https://datascience.stackexchange.com/questions/6092
复制相似问题