首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何进行特征提取来构建情感分析模型?

如何进行特征提取来构建情感分析模型?
EN

Stack Overflow用户
提问于 2020-09-01 01:17:38
回答 1查看 39关注 0票数 0

我正在尝试进行特征提取,并为twitter情感分析项目建立一个模型。然而,我得到了以下错误,我想知道是否有人可以帮助我?

错误:

代码语言:javascript
复制
ValueError: np.nan is an invalid document, expected byte or unicode string.

我的代码:

代码语言:javascript
复制
import re
import pickle
import numpy as np
import pandas as pd


# nltk
from nltk.stem import WordNetLemmatizer

# sklearn

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
df = pd.read_csv("updated_tweet_info.csv")


train,test = train_test_split(df, test_size = 0.2, random_state = 42)

train_clean_tweet=[]
for tweet in train['tweet']:
    train_clean_tweet.append(tweet)
test_clean_tweet=[]
for tweet in test['tweet']:
    test_clean_tweet.append(tweet)

v = CountVectorizer(analyzer = "word")
train_features= v.fit_transform(train_clean_tweet)
test_features=v.transform(test_clean_tweet)

lr = RandomForestRegressor(n_estimators=200)
fit = lr.fit(train)
pred = lr.predict(test)
accuracy = r2_score(train,test)
EN

回答 1

Stack Overflow用户

发布于 2020-09-01 01:48:09

您可以尝试将NaN替换为空格-这应该会消除错误:

代码语言:javascript
复制
data = df.fillna(' ')
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63675323

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档