首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >半监督自动标注的实现建议

半监督自动标注的实现建议
EN

Stack Overflow用户
提问于 2014-10-21 14:45:51
回答 1查看 72关注 0票数 0

我想知道开发自动标签系统的方法是什么。我正在建立一个公司内部反馈平台,我们的业务用户希望添加标签到帖子。我想要建立一个系统,在用户发布时向他们推荐标签,允许用户更正建议,并让系统从这些建议中学习。我们有几个标签,我们希望最初使用,但允许用户添加更多的必要。

我知道LDA算法和Kea/Mallet算法,但是这些似乎是不完整的解。我想将我们的预定义标签添加到现有的帖子中,然后将它们作为系统前进的指南。

只是想听听关于如何继续下去的建议。一个问题是数据集目前非常小(大约90个帖子)。

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-10-21 17:34:17

对于这个问题,我写了一篇PhD论文,我称之为“生成人工智能”。既然你可能不会读到这篇论文,下面是这类问题的一般算法:

1)数据规范化:确保范围在0到1之间,或-1和1之间(如果有数字);如果有单词/名称,只使用小写(或大写);如果两者兼有,则将数据拆分为数字和其他标签,并使其成为一个多分类器系统。

2)使用KNN (K-最近邻),直到类别变得足够大(通常用于类/类别中的前几百项,您可以使用KNN)。尝试不同的设置来优化结果。玩K(通常我使用范围1到21,总是不均匀的数字)和距离函数。Scipy有很好的实现,很容易使用。

此外,使用标签的排名来影响决策。例如,如果你有一个K为11,那么第一项,你得到所有的标签得到11分。第二项标签得到10分等。然后收集标签,并显示最佳(N)标签,取决于得到的分数的数量。

然后向用户展示标签,这样用户就可以给出反馈,系统就可以自我更新。显示更多标签的优点是用户必须键入较少的内容。

3)一旦有了足够的项目,就应该用支持向量机代替KNN算法。通常线性支持向量机足够好。对于(线性)支持向量机的优化,使用网格搜索参数。

基本思想是,您有一个系统,它生成假设(本例中的标签),并且用户提供反馈,通常是在生产系统中,这样AI就可以优化自己。

如果你对此很感兴趣,这里是我的PhD论文:

https:/irs.ub.rug.nl/dbi/4c86122381f79

现在我用它来做实时学习的机器人.

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26489557

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档