我会尽量澄清我的问题:
我训练了一个逻辑回归模型,收集了可信的tweet数据以及与新冠肺炎相关的假tweet数据。
现在我想要能够预测个别的数据。我去选择样本数据,我想得到那个特定样本的结果。
input_ = df_2['Tweets'][3]
input_当我运行时,我得到:
“温暖的天气可能会减缓,但不会停止,冠状病毒”
试图改变这句话:
input_transformed = vectorization.fit_transform(input_)ValueError:可以通过预期的原始文本文档,字符串对象接收。
我不接受字符串,是否只有向量化字符串的方法?或者,当涉及到一个字符串示例时,可能还有另一种方法?
在笔记本的末尾,你可以看到我想做的事情。
发布于 2022-03-31 09:01:55
也许有,但请注意你也可以这样做:
from sklearn.feature_extraction.text import TfidfVectorizer
df = pd.DataFrame({'Tweet': ['Hello world', 'Good world']})
tfidf = TfidfVectorizer()
tfidf.fit(df)
# Similar to your syntax
tfidf.transform([df['Tweet'][0]]).todense()
# My preferred syntax:
tfidf.transform(df.loc[0, ['Tweet']]).todense()但是,这在运行时方面是非常低效的。
https://stackoverflow.com/questions/71689636
复制相似问题