文章/答案/技术大牛

发布

社区首页 >问答首页 >半监督自动标注的实现建议

问半监督自动标注的实现建议
EN

Stack Overflow用户

提问于 2014-10-21 14:45:51

回答 1查看 72关注 0票数 0

我想知道开发自动标签系统的方法是什么。我正在建立一个公司内部反馈平台，我们的业务用户希望添加标签到帖子。我想要建立一个系统，在用户发布时向他们推荐标签，允许用户更正建议，并让系统从这些建议中学习。我们有几个标签，我们希望最初使用，但允许用户添加更多的必要。

我知道LDA算法和Kea/Mallet算法，但是这些似乎是不完整的解。我想将我们的预定义标签添加到现有的帖子中，然后将它们作为系统前进的指南。

只是想听听关于如何继续下去的建议。一个问题是数据集目前非常小(大约90个帖子)。

谢谢!

machine-learning

artificial-intelligence

topic-modeling

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-10-21 17:34:17

对于这个问题，我写了一篇PhD论文，我称之为“生成人工智能”。既然你可能不会读到这篇论文，下面是这类问题的一般算法：

1)数据规范化:确保范围在0到1之间，或-1和1之间(如果有数字)；如果有单词/名称，只使用小写(或大写)；如果两者兼有，则将数据拆分为数字和其他标签，并使其成为一个多分类器系统。

2)使用KNN (K-最近邻)，直到类别变得足够大(通常用于类/类别中的前几百项，您可以使用KNN)。尝试不同的设置来优化结果。玩K(通常我使用范围1到21，总是不均匀的数字)和距离函数。Scipy有很好的实现，很容易使用。

此外，使用标签的排名来影响决策。例如，如果你有一个K为11，那么第一项，你得到所有的标签得到11分。第二项标签得到10分等。然后收集标签，并显示最佳(N)标签，取决于得到的分数的数量。

然后向用户展示标签，这样用户就可以给出反馈，系统就可以自我更新。显示更多标签的优点是用户必须键入较少的内容。

3)一旦有了足够的项目，就应该用支持向量机代替KNN算法。通常线性支持向量机足够好。对于(线性)支持向量机的优化，使用网格搜索参数。

基本思想是，您有一个系统，它生成假设(本例中的标签)，并且用户提供反馈，通常是在生产系统中，这样AI就可以优化自己。

如果你对此很感兴趣，这里是我的PhD论文：

https:/irs.ub.rug.nl/dbi/4c86122381f79

现在我用它来做实时学习的机器人.

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26489557

复制

相似问题

问半监督自动标注的实现建议
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问半监督自动标注的实现建议EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问半监督自动标注的实现建议
EN