首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >自动标注算法

自动标注算法
EN

Stack Overflow用户
提问于 2010-12-20 21:49:31
回答 2查看 1K关注 0票数 1

有人知道如何构建自动标签(博客帖子/文档)算法吗?任何例子都将受到感谢。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-02-02 15:46:30

我同意Wooble的说法。然而,天真的解决方案是简单地编写一个算法,计算给定博客帖子与文本语料库之间的词汇相似性和差异性。这种词汇差异将使你在博客文章中找到的单词比在语料库中找到的单词出现的频率更高。从这些单词中,你可以推断出一个标签。

但我强烈建议你不要这么做。自动标记在实践中似乎行不通。只需将标记工作外包给您的用户或Mechanical Turk等服务

票数 0
EN

Stack Overflow用户

发布于 2014-05-14 08:54:05

延迟响应,但也有此课程的任务-因此,如果其他人希望探索这一点,这里是一个起点:

如果您正在寻找简单的解决方案,或者可能是作为一种机器学习练习,您可能会将自动标记视为文本分类/分类任务。朴素贝叶斯分类器是简单的工具,有大量的伪代码和材料来理解它们。TFIDF (术语频率-反向文档频率)度量是您可以查看的其他指标-尽管通常与信息检索相关,但当与其他机器学习技术相结合时,它可以解决这个问题。

但是,您必须确定多个标签,而不是根据NB分类器的定义为新样本分配单个标签。您可能可以使用训练集中的标签共现信息来帮助您完成此任务。

这是一个简单和幼稚的解决方案,并且遗漏了许多关于特征选择的细节(通过词干减少独立参数,信息增益等)。有很多关于这个研究主题的容易理解的论文可以试一试!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4490227

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档