文章/答案/技术大牛

发布

社区首页 >问答首页 >文本数据预处理的正确步骤是什么？

问文本数据预处理的正确步骤是什么？
EN

Stack Overflow用户

提问于 2020-05-14 09:06:49

回答 1查看 157关注 0票数 0

我正在使用Airbnb数据集来预测在传输信息(文本数据)下客户的回顾分数(评分范围从0到100)。

一个典型的交通信息是:方便的公交车站就在街区下面，如果你要去市中心或更远的地方去探险。拉链车也位于安妮女王山的战略位置。

我是数据科学的新手！

下面是我正在使用的数据预处理步骤。，有人能告诉我他们是否正确吗？

列车数据预处理步骤：

将punctuation

remove stopwords

remove

转换为小写

，删除从tf-

的数据中识别的常见/罕见的单词，代码如下：

   tfidf = TfidfVectorizer()
   train_X = tfidf.fit_transform(train_X)

测试数据的预处理步骤：

将punctuation

remove stopwords

spelling correction

Lemmatization

calculate

转换为小写
，用以下代码删除tf-

向量：

   test_X = tfidf.transform(test_X)

谢谢!

python

text

data-science

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-14 09:27:53

你好，欢迎来到论坛！我可以补充一些：

将所有数字转换为它们的单词等价物(以避免有些在数字中，有些在单词中)。您也可以通过使用常规的expression.
Expanding缩写将所有数字转换为一个特殊的单词，如NUM。也许一位用户使用了Resources.
Stemming:和另一种eat)
Strip，即从单词中删除词缀(后缀、前缀)，以获得单词词干(例如，如果applicable
Remove“停止”诸如" the“、”和“、"a”之类的单词，但也是在您的评论中使用的最常见的单词，则使用HH.RR ->eat)
Strip额外的空格。所以，首先检查单词在文本中的分布，并过滤顶部(无意义！)
删除标题、页脚、HTML标记等噪声。

如果这回答了你的问题，请不要忘记在我的答案左边的复选键，以接受它。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61793454

复制

相似问题

问文本数据预处理的正确步骤是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本数据预处理的正确步骤是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本数据预处理的正确步骤是什么？
EN