首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在python中对字符串列进行线性回归?

如何在python中对字符串列进行线性回归?
EN

Stack Overflow用户
提问于 2021-12-23 00:10:10
回答 1查看 239关注 0票数 0

我有一个带有2列的csv文件。一列具有字符串毒性注释,另一列具有浮点毒性值0至1。(当毒性值接近1时,注释变得更有毒)。

我想做线性回归,以正确预测毒性值的数量。

为此,我首先将“注释”(string)列转换为整数,如下所示:

代码语言:javascript
复制
train['comment']= pd.to_numeric(train['comment'], errors='coerce').fillna(0).astype(np.int64)

然后,我编写了线性回归代码:

代码语言:javascript
复制
linX = train.iloc[:, 0].values.reshape(-1,1)
linY = train.iloc[:, 1].values.reshape(-1,1)

lr = LinearRegression()
lr.fit(linX, linY)
Y_pred = lr.predict(linX)

plt.scatter(linX,linY)
plt.plot(linX,Y_pred, color='red')

这很管用,但我觉得我做得不对。因为回归表对我来说不太对:

我解决不了这个问题。我的问题是;

对于这个问题,是我的线性回归代码,对吗?

我应该将“毒性”列从0值中分离出来吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-12-23 00:40:48

我不确定用下面的代码将字符串转换为数字值是否会返回您想要的结果。

代码语言:javascript
复制
pd.to_numeric(train['comment'], errors='coerce') 

此代码仅更改字符串注释的变量类型。字符串注释无法转换为整数。胁迫可选参数导致字符串被转换为NaN值,而NaN值被转换为带有填充NaN的零。

要使用机器学习技术解决文本分类问题,需要使用TF-以色列国防军等技术对数据进行预处理。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70456412

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档