有人知道如何构建自动标签(博客帖子/文档)算法吗?任何例子都将受到感谢。
发布于 2011-02-02 15:46:30
我同意Wooble的说法。然而,天真的解决方案是简单地编写一个算法,计算给定博客帖子与文本语料库之间的词汇相似性和差异性。这种词汇差异将使你在博客文章中找到的单词比在语料库中找到的单词出现的频率更高。从这些单词中,你可以推断出一个标签。
但我强烈建议你不要这么做。自动标记在实践中似乎行不通。只需将标记工作外包给您的用户或Mechanical Turk等服务
发布于 2014-05-14 08:54:05
延迟响应,但也有此课程的任务-因此,如果其他人希望探索这一点,这里是一个起点:
如果您正在寻找简单的解决方案,或者可能是作为一种机器学习练习,您可能会将自动标记视为文本分类/分类任务。朴素贝叶斯分类器是简单的工具,有大量的伪代码和材料来理解它们。TFIDF (术语频率-反向文档频率)度量是您可以查看的其他指标-尽管通常与信息检索相关,但当与其他机器学习技术相结合时,它可以解决这个问题。
但是,您必须确定多个标签,而不是根据NB分类器的定义为新样本分配单个标签。您可能可以使用训练集中的标签共现信息来帮助您完成此任务。
这是一个简单和幼稚的解决方案,并且遗漏了许多关于特征选择的细节(通过词干减少独立参数,信息增益等)。有很多关于这个研究主题的容易理解的论文可以试一试!
https://stackoverflow.com/questions/4490227
复制相似问题