我正在使用Airbnb数据集来预测在传输信息(文本数据)下客户的回顾分数(评分范围从0到100)。
一个典型的交通信息是:方便的公交车站就在街区下面,如果你要去市中心或更远的地方去探险。拉链车也位于安妮女王山的战略位置。
我是数据科学的新手!
下面是我正在使用的数据预处理步骤。,有人能告诉我他们是否正确吗?
列车数据预处理步骤:
将punctuation
tfidf = TfidfVectorizer()
train_X = tfidf.fit_transform(train_X)测试数据的预处理步骤:
将punctuation
向量:
test_X = tfidf.transform(test_X)谢谢!
发布于 2020-05-14 09:27:53
你好,欢迎来到论坛!我可以补充一些:
如果这回答了你的问题,请不要忘记在我的答案左边的复选键,以接受它。
https://stackoverflow.com/questions/61793454
复制相似问题