主题发现和推荐是两项截然不同的任务，尽管它们经常重叠。如果你有一个稳定的用户群，你也许能够在没有任何主题的情况下给出非常好的推荐，discovery.
Discovering主题和为它们分配名称也是两个不同的任务。这意味着，比起明确地说明这个共同的主题可能是什么，往往更容易分辨出文本A和文本B共享一个相似的主题。为主题命名最好由人类来完成，例如，让他们标记项目。

现在来看一些实际的例子。

TF-IDF通常是一个很好的起点，但它也有严重的缺点。例如，它无法区分两个文本中的“汽车”和“卡车”，这意味着这两个可能共享用于自动聚类数据的topic.
http://websom.hut.fi/websom/ A Kohonen映射。它学习主题，然后通过topics.
http://de.wikipedia.org/wiki/Latent_Semantic_Analysis组织文本，通过检测不同单词之间的语义相似度来提高TF-IDF。另请注意，这已获得专利，因此您可能无法使用它。
一旦您有了用户或专家分配的一组主题，您还可以尝试几乎任何类型的机器学习方法(例如支持向量机)来将TF-IDF数据映射到主题。

票数 2

发布于 2011-11-04 20:17:30

作为一个搜索引擎工程师，我认为这个问题最好结合使用两种技术来解决。

搜索技术1，搜索( or other algorithms)

使用搜索为您没有用户统计数据的内容创建基准模型。有许多技术，但我认为Apache Lucene/Solr代码库是最成熟和最稳定的。

技术2，基于用户的推荐器( other algorithms)

当您开始获取用户统计数据时，可以使用它来增强文本分析系统使用的相关性模型。解决这类问题的一个快速增长的代码库是Apache Mahout项目。

票数 1

发布于 2011-11-04 21:00:00

请查看Programming Collective Intelligence，这是一个非常好的关于这些方面的各种技术的概述。可读性也很好。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8008850

复制

相似问题

问根据内容对文本进行优先级排序
EN

问根据内容对文本进行优先级排序EN