首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何将我的数据编码为logistic回归、RF和GBDT

如何将我的数据编码为logistic回归、RF和GBDT
EN

Stack Overflow用户
提问于 2022-06-14 12:13:52
回答 1查看 52关注 0票数 0

我想执行逻辑回归,但我不知道如何编码输入。我已经把数据分开了。

我的df有以下列:

doc_no,personal_no,记号(使用spacy的预处理文本),日和分数

数据类型:

代码语言:javascript
复制
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   doc_no       30363 non-null  int64 
 1   personal_no  30363 non-null  int64 
 2   tokens       30363 non-null  object
 3   day          30363 non-null  object
 4   score        30363 non-null  object
dtypes: int64(2), object(3)

这些标记看起来像一个列表。日期如下: MAY03,JUN05等。分数是0或1分。

我想预测基于令牌分数

我把数据分开:

代码语言:javascript
复制
columns = ['doc_no', 'personal_no', 'tokens', 'day', 'score']

df = df_new.loc[:, columns]

# arranging the data
features =  ['doc_no', 'personal_no', 'tokens', 'day']

X = df.loc[:, features]
y = df.loc[:, ['score']]

# train test split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, 
                                                    train_size=0.8)

我知道我需要用TF-以色列国防军将令牌矢量化我想?但到目前为止还不起作用。当我尝试运行这个:

代码语言:javascript
复制
model = LogisticRegression().fit(X_train, y_train) 

我知道这个错误:

代码语言:javascript
复制
ValueError: could not convert string to float: "['word', 'word', 'word', 'word']

我将内容改为“word”,因为我的数据对隐私敏感。

我做什么好?

我还想对这些数据执行随机森林和梯度增强决策树。对于这些算法,我还需要考虑其他的问题吗?

提前感谢!

EN

回答 1

Stack Overflow用户

发布于 2022-06-14 13:12:28

TfidfVectorizer (我想你谈论的是从滑雪而来的)作品来自文本。因此,如果您的文本已经被标记,您不能使用它。

您可以将公式应用于自己,这非常简单,或者您可以执行以下操作:

代码语言:javascript
复制
tokens = [" ".join(ts) for ts in tokens]
tfifd_scores = TfidfVectorizer().fit_transform(tokens)

注:我想你从spacy得到的记号和你从sklearn得到的不同。否则,只需跳过标记化,直接处理文本。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72616802

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档