文章/答案/技术大牛

发布

社区首页 >问答首页 >当分类器从测试文件中预测时，为什么会有额外的标签？

问当分类器从测试文件中预测时，为什么会有额外的标签？
EN

Stack Overflow用户

提问于 2014-11-15 06:56:44

回答 2查看 64关注 0票数 1

在之前的一个post中，我询问了文本分类，我想更好地理解发生了什么，以及如何工作的科学知识-学习，假设train.txt是

Pošto je EULEX obećao da će obaviti istragu o prošlosedmičnom izbijanju nasilja na sjeveru Kosova, taj incident predstavlja još jedan ispit kapaciteta misije da doprinese jačanju vladavine prava.
De todas as provações que teve de suplantar ao longo da vida, qual foi a mais difícil? O início. Qualquer começo apresenta dificuldades que parecem intransponíveis. Mas tive sempre a minha mãe do meu lado. Foi ela quem me ajudou a encontrar forças para enfrentar as situações mais decepcionantes, negativas, as que me punham mesmo furiosa.
Al parecer, Andrea Guasch pone que una relación a distancia es muy difícil de llevar como excusa. Algo con lo que, por lo visto, Alex Lequio no está nada de acuerdo. ¿O es que más bien ya ha conseguido la fama que andaba buscando?
Vo väčšine golfových rezortov ide o veľký komplex niekoľkých ihrísk blízko pri sebe spojených s hotelmi a ďalšími možnosťami trávenia voľného času – nie vždy sú manželky či deti nadšenými golfistami, a tak potrebujú iný druh vyžitia. Zaujímavé kombinácie ponúkajú aj rakúske, švajčiarske či talianske Alpy, kde sa dá v zime lyžovať a v lete hrať golf pod vysokými alpskými končiarmi.

而test.txt是

Por ello, ha insistido en que Europa tiene que darle un toque de atención porque Portugal esta incumpliendo la directiva del establecimiento del peaje
Estima-se que o mercado homossexual só na Cidade do México movimente cerca de oito mil milhões de dólares, aproximadamente seis mil milhões de euros

我有一个可以执行语言标识的小脚本：

# -- coding: utf-8 --
import codecs
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

train = []

#We set the classes
tags = ['bos','pt','es','slov']

word_vectorizer = CountVectorizer(analyzer='word')


#vectorize the train and the test files
trainset = word_vectorizer.fit_transform(
    codecs.open('/Users/user/Desktop/train.txt','r','utf8'))

testset = word_vectorizer.transform(
    codecs.open('/Users/user/Desktop/test.txt','r','utf8'))

# We train the algorithm:
mnb = MultinomialNB()
mnb.fit(trainset, tags)
res = mnb.predict(testset)

print res

这是输出：['es' 'pt' 'bos']。输出的问题是，很明显，在分类输出中增加了一个实际上是错误的类(即bos)。我猜问题在于我如何标记train和test文件，所以，如何标记两个文件才能得到正确的结果？，即：['es' 'pt']。

到现在为止，我已经了解到这两个文件都需要矢量化，但我不明白这里发生了什么：

mnb = MultinomialNB()
mnb.fit(trainset, tags)
res = mnb.predict(testset)

有人能给我解释一下剧本上面发生的事吗？

nlp

scikit-learn

nltk

python

machine-learning

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-11-17 05:53:14

您的test.txt中有一个空行，这会导致额外的输入

这一行逐行读取test.txt，并将每一行转换为特征向量：

testset = word_vectorizer.transform(
    codecs.open('/Users/user/Desktop/test.txt','r','utf8'))

一个额外的空行将导致一个额外的向量，它将被最可能的标记标记。在培训数据train.txt中，所有标签都是相同的，因此空行将使用第一个标签。

票数 2

Stack Overflow用户

发布于 2014-11-15 07:17:31

我做了一些文本分类和Scikit的工作。

mnb = MultinomialNB()        # Multinomial NB is initialized
mnb.fit(trainset, tags)      # Learning is done of the algorithm
res = mnb.predict(testset)   # Prediction is done with the trainset

我不知道你为什么会得到更多的预测记录。什么编解码模块起作用了。这有点尴尬，你可以设置标签每一行读。

而IMHO，你应该使用停止词，通过使用它们，你将排除很多“垃圾”。

查看更多的Scikit文档，并在互联网上有关于矢量化的资料。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26943405

复制

相似问题

问当分类器从测试文件中预测时，为什么会有额外的标签？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当分类器从测试文件中预测时，为什么会有额外的标签？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当分类器从测试文件中预测时，为什么会有额外的标签？
EN