文章/答案/技术大牛

发布

社区首页 >问答首页 >使用skmultilearn.BinaryRelevance预测新文本时匹配错误

问使用skmultilearn.BinaryRelevance预测新文本时匹配错误
EN

Stack Overflow用户

提问于 2021-07-24 19:39:47

回答 1查看 57关注 0票数 0

我正在尝试创建一个多标签文本分类的小例子：

import skmultilearn
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
from scipy.sparse import csr_matrix
from pandas.core.common import flatten
from sklearn.naive_bayes import MultinomialNB
from skmultilearn.problem_transform import BinaryRelevance

TRAIN_DATA = [

    ['Como efetuar uma conexão com MySQL usando PHP ?', ['desenvolvimento','banco']],
    ['Quais são os melhores clientes de VPN hoje em dia?', ['redes']],
    ['Qual é o equivalente ao tipo booleano no Oracle?', ['banco']],
    ['Como remover entidade indesejada da sessão do Hibernate?', ['desenvolvimento']],
    ['Como implementar o pool de conexão TCP em java?', ['desenvolvimento','redes']],
    ['Como posso me conectar ao banco de dados PostgreSQL remotamente de outra rede?', ['banco','redes']],
    ['Qual a função python para remover acentos em uma string?', ['desenvolvimento']],
    ['Como remover índices no SQL Server?', ['banco']],
    ['Como configurar o firewall com DMZ?', ['redes']]
]

data_frame = pd.DataFrame(TRAIN_DATA, columns=['text','labels'])
corpus = data_frame['text']
unique_labels = set(flatten(data_frame['labels']))
for u in unique_labels:
    data_frame[u] = 0
    data_frame[u] = pd.to_numeric(data_frame[u])
for i, row in data_frame.iterrows():
    for u in unique_labels:
        if u in row.labels:
            data_frame.at[i,u] = 1
tfidf = TfidfVectorizer()
Xfeatures = tfidf.fit_transform(corpus).toarray()
y = data_frame[unique_labels]
binary_rel_clf = BinaryRelevance(MultinomialNB())
binary_rel_clf.fit(Xfeatures,y)
predict_text = ['SQL Server no PHP?']
X_predict = tfidf.fit_transform(predict_text)
br_prediction = binary_rel_clf.predict(X_predict)
print(br_prediction)

但是，我得到了以下错误：

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 56 is different from 4)

要正确运行预测()，需要更改什么“维度”？

skmultilearn

python

scikit-learn

text-classification

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-07-24 22:14:10

您正在使用TfidfVectorizer来转换文本功能。您应该只在培训数据上安装一次转换器，这在您的情况下是corpus。但是，在准备测试/预测数据时，您应该再次使用transform方法和而不是 fit_transform，因为这会修改转换器。

更改以下内容以使其工作：

X_predict = tfidf.transform(predict_text)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68513269

复制

相似问题

问使用skmultilearn.BinaryRelevance预测新文本时匹配错误
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用skmultilearn.BinaryRelevance预测新文本时匹配错误EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用skmultilearn.BinaryRelevance预测新文本时匹配错误
EN