我一直面临着这个问题,虽然安装dataset..Everything似乎很好,但不知道问题出在哪里。由于我是一个初学者,谁能告诉我我做错了什么,或者我错过了什么?
问题似乎出在数据预处理部分。
错误跟踪和数据帧头已附加为下面的图像`
train = pd.read_csv('train.txt', sep='\t', dtype=str, header=None)
test = pd.read_csv('test.txt', sep='\t', dtype=str, header=None)
X_train = train.iloc[:,1:]
y_train = train.iloc[:,0:1]
X_test = test.iloc[:,1:]
y_test = test.iloc[:,0:1]
TOKENS_ALPHANUMERIC = '[A-Za-z0-9]+(?=\\s+)'
steps = [('vectorizer',HashingVectorizer(TOKENS_ALPHANUMERIC,
norm=None, binary=False, lowercase=False,
ngram_range=(1,2))),
('clf',OneVsRestClassifier(LogisticRegression()))]
pipeline = Pipeline(steps)
pipeline.fit(X_train,y_train)
accuracy = pipeline.score(X_test,y_test)
print(accuracy)`
发布于 2018-05-08 15:58:23
你需要这样定义它:
steps = [('vectorizer',HashingVectorizer(tokenizer=TOKENS_ALPHANUMERIC,
norm=None, binary=False,
lowercase=False,
ngram_range=(1,2))),
('clf',OneVsRestClassifier(LogisticRegression()))]当你没有指定key时,这个值被用于HashingVectorizer中的第一个参数,它是input,因此它是错误的。
https://stackoverflow.com/questions/50217863
复制相似问题