首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >根据内容对文本进行优先级排序

根据内容对文本进行优先级排序
EN

Stack Overflow用户
提问于 2011-11-04 19:56:10
回答 3查看 151关注 0票数 3

如果你有一个文本列表,并且一个人对某些主题感兴趣,那么为一个给定的人选择最相关的文本的算法是什么?

我认为这是一个相当复杂的话题,作为一个答案,我希望有几个方向来研究文本分析,文本统计,人工智能等的各种方法。

谢谢

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-11-05 03:57:17

对于这项任务,有相当多的算法。至少太多了,不能在这里一一列举。首先是一些起点:

  • 主题发现和推荐是两项截然不同的任务,尽管它们经常重叠。如果你有一个稳定的用户群,你也许能够在没有任何主题的情况下给出非常好的推荐,discovery.
  • Discovering主题和为它们分配名称也是两个不同的任务。这意味着,比起明确地说明这个共同的主题可能是什么,往往更容易分辨出文本A和文本B共享一个相似的主题。为主题命名最好由人类来完成,例如,让他们标记项目。

现在来看一些实际的例子。

  • TF-IDF通常是一个很好的起点,但它也有严重的缺点。例如,它无法区分两个文本中的“汽车”和“卡车”,这意味着这两个可能共享用于自动聚类数据的topic.
  • http://websom.hut.fi/websom/ A Kohonen映射。它学习主题,然后通过topics.
  • http://de.wikipedia.org/wiki/Latent_Semantic_Analysis组织文本,通过检测不同单词之间的语义相似度来提高TF-IDF。另请注意,这已获得专利,因此您可能无法使用它。
  • 一旦您有了用户或专家分配的一组主题,您还可以尝试几乎任何类型的机器学习方法(例如支持向量机)来将TF-IDF数据映射到主题。
票数 2
EN

Stack Overflow用户

发布于 2011-11-04 20:17:30

作为一个搜索引擎工程师,我认为这个问题最好结合使用两种技术来解决。

搜索技术1,搜索( or other algorithms)

使用搜索为您没有用户统计数据的内容创建基准模型。有许多技术,但我认为Apache Lucene/Solr代码库是最成熟和最稳定的。

技术2,基于用户的推荐器( other algorithms)

当您开始获取用户统计数据时,可以使用它来增强文本分析系统使用的相关性模型。解决这类问题的一个快速增长的代码库是Apache Mahout项目。

票数 1
EN

Stack Overflow用户

发布于 2011-11-04 21:00:00

请查看Programming Collective Intelligence,这是一个非常好的关于这些方面的各种技术的概述。可读性也很好。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8008850

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档