{ "blogid": 11, "blog_authorid": 2, "blog_content": "(this is blog complete content: html encoded on base64 such as) PHNlY3Rpb24+PGRpdiBjbGFzcz0icm93Ij4KICAgICAgICA8ZGl2IGNsYXNzPSJjb2wtc20tMTIiIGRhdGEtdHlwZT0iY29udGFpbmVyLWNvbnRlbn", "blog_timestamp": "2018-03-17 00:00:00", "blog_title": "Amazon India Fashion Week: Autumn-", "blog_subtitle": "", "blog_featured_img_link": "link to image", "blog_intropara": "Introductory para to article", "blog_status": 1, "blog_lastupdated": "\"Mar 19, 2018 7:42:23 AM\"", "blog_type": "Blog", "blog_tags": "1,4,6", "blog_uri": "Amazon-India-Fashion-Week-Autumn", "blog_categories": "1", "blog_readtime": "5", "ViewsCount": 0 }
上面是一个示例博客,根据我的API。我有一个这样的博客的JsonArray。
我试图根据博客的道具(例如:标签、类别、作者、标题/副标题中的关键字)和内容来预测3个类似的博客。我没有用户数据,也就是说,没有登录的用户数据(如评分或评论)。我知道没有用户的数据就不会准确,但我才刚刚开始学习数据科学或ML。任何建议/链接都是非常感谢的。我更喜欢使用java,但python、php或任何其他语言也适用于我。我需要一个易于实现的模型,因为我是一个初学者。提前谢谢。
发布于 2018-03-22 14:06:11
我的直觉是这个问题可能不在正确的地址。
而不是
我会做以下事情:
这听起来像是为了训练,你并不太担心准确性,数字特征应该足够了。
你的算法应该比k-NN短一两步,k-NN被认为是更简单的ML中的一种,是一个很好的起点。
祝好运。
编辑:
您希望使用文本、标签、数字以及时间序列数据来构建推荐引擎。这是一个宽泛的要求。就像你一样,当面对这个请求时,我需要潜入数据和研究最好的方法。有些方法需要不同的数据集。例如,协作式与基于内容的过滤。
我意识到这是大量的手势,但这里没有实际的代码问题。重申我的直觉,这个问题可能不在正确的地址。我真的很想帮忙,但这是我能做的最好的了。
编辑2:
如果我没理解错你的新评论,每个博客都有各自博客的以下内容:
我将从这些数据创建一个heuristic,并允许该过程调整每个统计数据的重要性。
挑战将是量化单词分数TF-IDF输出。您可以将这些(超过特定分数)视为标签,然后运行另一个相似性分析,或计算重叠。
您已经在此路径上开始了,并且此答案假定您将继续。IMO的最佳途径是查看哪些专用推荐引擎可以帮助您,而无需逐个构建统计数据(数字w/ Euclidean,标签w/ Jaccard,文本w/ TF-IDF)。
https://stackoverflow.com/questions/49063169
复制相似问题