我有一个带有2列的csv文件。一列具有字符串毒性注释,另一列具有浮点毒性值0至1。(当毒性值接近1时,注释变得更有毒)。
我想做线性回归,以正确预测毒性值的数量。
为此,我首先将“注释”(string)列转换为整数,如下所示:
train['comment']= pd.to_numeric(train['comment'], errors='coerce').fillna(0).astype(np.int64)然后,我编写了线性回归代码:
linX = train.iloc[:, 0].values.reshape(-1,1)
linY = train.iloc[:, 1].values.reshape(-1,1)
lr = LinearRegression()
lr.fit(linX, linY)
Y_pred = lr.predict(linX)
plt.scatter(linX,linY)
plt.plot(linX,Y_pred, color='red')这很管用,但我觉得我做得不对。因为回归表对我来说不太对:

我解决不了这个问题。我的问题是;
对于这个问题,是我的线性回归代码,对吗?
我应该将“毒性”列从0值中分离出来吗?
发布于 2021-12-23 00:40:48
我不确定用下面的代码将字符串转换为数字值是否会返回您想要的结果。
pd.to_numeric(train['comment'], errors='coerce') 此代码仅更改字符串注释的变量类型。字符串注释无法转换为整数。胁迫可选参数导致字符串被转换为NaN值,而NaN值被转换为带有填充NaN的零。
要使用机器学习技术解决文本分类问题,需要使用TF-以色列国防军等技术对数据进行预处理。
https://stackoverflow.com/questions/70456412
复制相似问题