首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >仅根据博客道具和内容预测3个相似博客的最佳算法

仅根据博客道具和内容预测3个相似博客的最佳算法
EN

Stack Overflow用户
提问于 2018-03-02 13:11:28
回答 1查看 54关注 0票数 0

{ "blogid": 11, "blog_authorid": 2, "blog_content": "(this is blog complete content: html encoded on base64 such as) PHNlY3Rpb24+PGRpdiBjbGFzcz0icm93Ij4KICAgICAgICA8ZGl2IGNsYXNzPSJjb2wtc20tMTIiIGRhdGEtdHlwZT0iY29udGFpbmVyLWNvbnRlbn", "blog_timestamp": "2018-03-17 00:00:00", "blog_title": "Amazon India Fashion Week: Autumn-", "blog_subtitle": "", "blog_featured_img_link": "link to image", "blog_intropara": "Introductory para to article", "blog_status": 1, "blog_lastupdated": "\"Mar 19, 2018 7:42:23 AM\"", "blog_type": "Blog", "blog_tags": "1,4,6", "blog_uri": "Amazon-India-Fashion-Week-Autumn", "blog_categories": "1", "blog_readtime": "5", "ViewsCount": 0 }

上面是一个示例博客,根据我的API。我有一个这样的博客的JsonArray。

我试图根据博客的道具(例如:标签、类别、作者、标题/副标题中的关键字)和内容来预测3个类似的博客。我没有用户数据,也就是说,没有登录的用户数据(如评分或评论)。我知道没有用户的数据就不会准确,但我才刚刚开始学习数据科学或ML。任何建议/链接都是非常感谢的。我更喜欢使用java,但python、php或任何其他语言也适用于我。我需要一个易于实现的模型,因为我是一个初学者。提前谢谢。

EN

回答 1

Stack Overflow用户

发布于 2018-03-22 14:06:11

我的直觉是这个问题可能不在正确的地址。

而不是

我会做以下事情:

  1. 创建了一个网站数据集,作为预测的依据。对于每个网站,你需要列出一个或多个功能:标签数量,发帖数量,发帖之间的平均时间,等等。

这听起来像是为了训练,你并不太担心准确性,数字特征应该足够了。

  • 是从k-NN算法返回的。不要担心分类器。不是对博客进行分类,而是列出3个最近的邻居(k = 3)。here是该算法的一个很好的实现。为您的目的简化它,请尽情享受。

你的算法应该比k-NN短一两步,k-NN被认为是更简单的ML中的一种,是一个很好的起点。

祝好运。

编辑:

您希望使用文本、标签、数字以及时间序列数据来构建推荐引擎。这是一个宽泛的要求。就像你一样,当面对这个请求时,我需要潜入数据和研究最好的方法。有些方法需要不同的数据集。例如,协作式与基于内容的过滤。

  • 在用户端可能遗漏了一些东西,这些东西可以用作一种评级:你不需要登录功能来获取信息: Cookie ID或基于IP的直接存储器访问、地理位置和查看持续时间应该可用于网络服务器。
  • 在博客方面:您需要处理文本以识别相关术语。我在上面给出的其他博客特性。

我意识到这是大量的手势,但这里没有实际的代码问题。重申我的直觉,这个问题可能不在正确的地址。我真的很想帮忙,但这是我能做的最好的了。

编辑2:

如果我没理解错你的新评论,每个博客都有各自博客的以下内容:

  • A Jaccard相似性系数。
  • 一组TF-IDF生成的带有分数的单词。
  • 基于数值数据的欧几里德距离。

我将从这些数据创建一个heuristic,并允许该过程调整每个统计数据的重要性。

挑战将是量化单词分数TF-IDF输出。您可以将这些(超过特定分数)视为标签,然后运行另一个相似性分析,或计算重叠。

您已经在此路径上开始了,并且此答案假定您将继续。IMO的最佳途径是查看哪些专用推荐引擎可以帮助您,而无需逐个构建统计数据(数字w/ Euclidean,标签w/ Jaccard,文本w/ TF-IDF)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49063169

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档