文章/答案/技术大牛

发布

社区首页 >问答首页 >仅根据博客道具和内容预测3个相似博客的最佳算法

问仅根据博客道具和内容预测3个相似博客的最佳算法
EN

Stack Overflow用户

提问于 2018-03-02 13:11:28

回答 1查看 54关注 0票数 0

{ "blogid": 11, "blog_authorid": 2, "blog_content": "(this is blog complete content: html encoded on base64 such as) PHNlY3Rpb24+PGRpdiBjbGFzcz0icm93Ij4KICAgICAgICA8ZGl2IGNsYXNzPSJjb2wtc20tMTIiIGRhdGEtdHlwZT0iY29udGFpbmVyLWNvbnRlbn", "blog_timestamp": "2018-03-17 00:00:00", "blog_title": "Amazon India Fashion Week: Autumn-", "blog_subtitle": "", "blog_featured_img_link": "link to image", "blog_intropara": "Introductory para to article", "blog_status": 1, "blog_lastupdated": "\"Mar 19, 2018 7:42:23 AM\"", "blog_type": "Blog", "blog_tags": "1,4,6", "blog_uri": "Amazon-India-Fashion-Week-Autumn", "blog_categories": "1", "blog_readtime": "5", "ViewsCount": 0 }

上面是一个示例博客，根据我的API。我有一个这样的博客的JsonArray。

我试图根据博客的道具(例如:标签、类别、作者、标题/副标题中的关键字)和内容来预测3个类似的博客。我没有用户数据，也就是说，没有登录的用户数据(如评分或评论)。我知道没有用户的数据就不会准确，但我才刚刚开始学习数据科学或ML。任何建议/链接都是非常感谢的。我更喜欢使用java，但python、php或任何其他语言也适用于我。我需要一个易于实现的模型，因为我是一个初学者。提前谢谢。

prediction

data-science

similarity

machine-learning

blogs

回答 1

Stack Overflow用户

发布于 2018-03-22 14:06:11

我的直觉是这个问题可能不在正确的地址。

而不是

我会做以下事情：

创建了一个网站数据集，作为预测的依据。对于每个网站，你需要列出一个或多个功能:标签数量，发帖数量，发帖之间的平均时间，等等。

这听起来像是为了训练，你并不太担心准确性，数字特征应该足够了。

是从k-NN算法返回的。不要担心分类器。不是对博客进行分类，而是列出3个最近的邻居(k = 3)。here是该算法的一个很好的实现。为您的目的简化它，请尽情享受。

你的算法应该比k-NN短一两步，k-NN被认为是更简单的ML中的一种，是一个很好的起点。

祝好运。

编辑：

您希望使用文本、标签、数字以及时间序列数据来构建推荐引擎。这是一个宽泛的要求。就像你一样，当面对这个请求时，我需要潜入数据和研究最好的方法。有些方法需要不同的数据集。例如，协作式与基于内容的过滤。

在用户端可能遗漏了一些东西，这些东西可以用作一种评级:你不需要登录功能来获取信息: Cookie ID或基于IP的直接存储器访问、地理位置和查看持续时间应该可用于网络服务器。
在博客方面:您需要处理文本以识别相关术语。我在上面给出的其他博客特性。

我意识到这是大量的手势，但这里没有实际的代码问题。重申我的直觉，这个问题可能不在正确的地址。我真的很想帮忙，但这是我能做的最好的了。

编辑2：

如果我没理解错你的新评论，每个博客都有各自博客的以下内容：

A Jaccard相似性系数。
一组TF-IDF生成的带有分数的单词。
基于数值数据的欧几里德距离。

我将从这些数据创建一个heuristic，并允许该过程调整每个统计数据的重要性。

挑战将是量化单词分数TF-IDF输出。您可以将这些(超过特定分数)视为标签，然后运行另一个相似性分析，或计算重叠。

您已经在此路径上开始了，并且此答案假定您将继续。IMO的最佳途径是查看哪些专用推荐引擎可以帮助您，而无需逐个构建统计数据(数字w/ Euclidean，标签w/ Jaccard，文本w/ TF-IDF)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49063169

复制

相似问题

问仅根据博客道具和内容预测3个相似博客的最佳算法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问仅根据博客道具和内容预测3个相似博客的最佳算法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问仅根据博客道具和内容预测3个相似博客的最佳算法
EN