首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于朴素贝叶斯的非英语词汇机器学习

基于朴素贝叶斯的非英语词汇机器学习
EN

Stack Overflow用户
提问于 2015-12-05 15:45:32
回答 1查看 879关注 0票数 1

我使用python的文本blob库和文本blob的朴素bayes分类器。我了解到它使用nltk朴素贝叶斯分类器。这是一个问题:我的输入句子是非英语(土耳其语)。这有可能吗?我不知道它是怎么工作的。但我尝试了10个训练数据,这似乎是可行的。我想知道它是如何工作的,这个天真的婴儿分类器的nltk,对非英语数据。缺点是什么?

EN

回答 1

Stack Overflow用户

发布于 2015-12-05 21:26:09

虽然受过英语训练的分类器不太可能在其他语言上工作,但听起来你在使用textblob来训练文本域的分类器。没有什么可以排除使用来自另一种语言的数据,所以真正的问题是您是否获得了可接受的性能。你应该做的第一件事是在几百个新句子上测试你的分类器(而不是你训练它的那些句子!)如果你高兴的话,故事就到此结束了。如果没有,继续读下去。

使或破坏任何分类器的是选择特征来训练它。NLTK的分类器需要一个“特征提取”函数,它将句子转换为特征字典。根据它的教程的说法,默认情况下,textblob提供了某种“单词袋”功能。这大概就是您正在使用的功能,但是您可以轻松地插入您自己的功能函数。

这就是语言特有的资源的来源:许多分类器使用“停止词列表”来丢弃诸如和和。显然,这个列表必须是特定于语言的。正如@JustinBarber在一篇评论中所写的,拥有大量形态学(如土耳其语)的语言有更多的单词形式,这可能限制了基于单词的分类的有效性。如果你“阻止”或混淆你的话,你可能会看到进步;这两个过程都将不同的屈折词形式转换成一个共同的形式。

在更远的地方,您没有说明分类器的用途,但是您可以为某些文本属性编写自定义识别器,并将它们作为特性插入。例如,如果你在做情感分析,有些语言(包括英语)的语法结构会表现出很高的情绪。

有关更多信息,请阅读NLTK书的几章,特别是关于分类的章节。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34107362

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档