文章/答案/技术大牛

发布

社区首页 >问答首页 >基于朴素贝叶斯的非英语词汇机器学习

问基于朴素贝叶斯的非英语词汇机器学习
EN

Stack Overflow用户

提问于 2015-12-05 15:45:32

回答 1查看 879关注 0票数 1

我使用python的文本blob库和文本blob的朴素bayes分类器。我了解到它使用nltk朴素贝叶斯分类器。这是一个问题:我的输入句子是非英语(土耳其语)。这有可能吗？我不知道它是怎么工作的。但我尝试了10个训练数据，这似乎是可行的。我想知道它是如何工作的，这个天真的婴儿分类器的nltk，对非英语数据。缺点是什么？

python

nltk

naivebayes

textblob

回答 1

Stack Overflow用户

发布于 2015-12-05 21:26:09

虽然受过英语训练的分类器不太可能在其他语言上工作，但听起来你在使用textblob来训练文本域的分类器。没有什么可以排除使用来自另一种语言的数据，所以真正的问题是您是否获得了可接受的性能。你应该做的第一件事是在几百个新句子上测试你的分类器(而不是你训练它的那些句子！)如果你高兴的话，故事就到此结束了。如果没有，继续读下去。

使或破坏任何分类器的是选择特征来训练它。NLTK的分类器需要一个“特征提取”函数，它将句子转换为特征字典。根据它的教程的说法，默认情况下，textblob提供了某种“单词袋”功能。这大概就是您正在使用的功能，但是您可以轻松地插入您自己的功能函数。

这就是语言特有的资源的来源:许多分类器使用“停止词列表”来丢弃诸如和和。显然，这个列表必须是特定于语言的。正如@JustinBarber在一篇评论中所写的，拥有大量形态学(如土耳其语)的语言有更多的单词形式，这可能限制了基于单词的分类的有效性。如果你“阻止”或混淆你的话，你可能会看到进步；这两个过程都将不同的屈折词形式转换成一个共同的形式。

在更远的地方，您没有说明分类器的用途，但是您可以为某些文本属性编写自定义识别器，并将它们作为特性插入。例如，如果你在做情感分析，有些语言(包括英语)的语法结构会表现出很高的情绪。

有关更多信息，请阅读NLTK书的几章，特别是关于分类的章节。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34107362

复制

相似问题

问基于朴素贝叶斯的非英语词汇机器学习
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于朴素贝叶斯的非英语词汇机器学习EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于朴素贝叶斯的非英语词汇机器学习
EN