首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >CountVectorizer MultinomialNB ValueError:维度不匹配

CountVectorizer MultinomialNB ValueError:维度不匹配
EN

Stack Overflow用户
提问于 2017-08-07 17:13:13
回答 1查看 1.9K关注 0票数 1

我正在试着让我的MultinomialNB正常工作。我在我的训练和测试集上使用CountVectorizer,当然,这两个setz中有不同的单词。所以我明白了,为什么这个错误

代码语言:javascript
复制
ValueError: dimension mismatch

发生了,但我不知道如何修复它。我尝试了CountVectorizer().transform,而不是另一个帖子(SciPy and scikit-learn - ValueError: Dimension mismatch)中建议的CountVectorizer().fit_transform,但这给了我

代码语言:javascript
复制
NotFittedError: CountVectorizer - Vocabulary wasn't fitted.

如何正确使用CountVectorizer?

代码语言:javascript
复制
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cross_validation import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
import sklearn.feature_extraction

df = data
y = df["meal_parent_category"]
X = df['name_cleaned']
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)
X_train = CountVectorizer().fit_transform(X_train)
X_test = CountVectorizer().fit_transform(X_test)
algo = MultinomialNB()
algo.fit(X_train,y_train)
y = algo.predict(X_test)
print(classification_report(y_test,y_pred))
EN

回答 1

Stack Overflow用户

发布于 2017-08-07 17:58:02

好的,在问完这个问题后,我想出了答案:)这是关于词汇的解决方案,等等:

代码语言:javascript
复制
df = train
y = df["meal_parent_category_cleaned"]
X = df['name_cleaned']
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)
vectorizer_train = CountVectorizer()
X_train = vectorizer_train.fit_transform(X_train)
vectorizer_test = CountVectorizer(vocabulary=vectorizer_train.vocabulary_)
X_test = vectorizer_test.transform(X_test)
algo = MultinomialNB()
algo.fit(X_train,y_train)
y_pred = algo.predict(X_test)
print(classification_report(y_test,y_pred))
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45543303

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档