首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当使用TfidfVectorizer时,如何向量化一个样本数据?

当使用TfidfVectorizer时,如何向量化一个样本数据?
EN

Stack Overflow用户
提问于 2022-03-31 08:56:11
回答 1查看 80关注 0票数 1

我会尽量澄清我的问题:

我训练了一个逻辑回归模型,收集了可信的tweet数据以及与新冠肺炎相关的假tweet数据。

现在我想要能够预测个别的数据。我去选择样本数据,我想得到那个特定样本的结果。

代码语言:javascript
复制
input_ = df_2['Tweets'][3]
input_

当我运行时,我得到:

“温暖的天气可能会减缓,但不会停止,冠状病毒”

试图改变这句话:

代码语言:javascript
复制
input_transformed = vectorization.fit_transform(input_)

ValueError:可以通过预期的原始文本文档,字符串对象接收。

我不接受字符串,是否只有向量化字符串的方法?或者,当涉及到一个字符串示例时,可能还有另一种方法?

存储库:https://github.com/jorgesisco/Fake-News-Detection-Machine-Learning-Pipeline/blob/main/Notebooks/Classification-Model-for-Fake-News-Detection.ipynb

在笔记本的末尾,你可以看到我想做的事情。

EN

回答 1

Stack Overflow用户

发布于 2022-03-31 09:01:55

也许有,但请注意你也可以这样做:

代码语言:javascript
复制
from sklearn.feature_extraction.text import TfidfVectorizer

df = pd.DataFrame({'Tweet': ['Hello world', 'Good world']})

tfidf = TfidfVectorizer()


tfidf.fit(df)

# Similar to your syntax
tfidf.transform([df['Tweet'][0]]).todense()

# My preferred syntax:
tfidf.transform(df.loc[0, ['Tweet']]).todense()

但是,这在运行时方面是非常低效的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71689636

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档