首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本数据预处理的正确步骤是什么?

文本数据预处理的正确步骤是什么?
EN

Stack Overflow用户
提问于 2020-05-14 09:06:49
回答 1查看 157关注 0票数 0

我正在使用Airbnb数据集来预测在传输信息(文本数据)下客户的回顾分数(评分范围从0到100)。

一个典型的交通信息是:方便的公交车站就在街区下面,如果你要去市中心或更远的地方去探险。拉链车也位于安妮女王山的战略位置。

我是数据科学的新手!

下面是我正在使用的数据预处理步骤,有人能告诉我他们是否正确吗?

列车数据预处理步骤:

将punctuation

  • remove stopwords

  • remove

  • 转换为小写

  • ,删除从tf-

  • 的数据中识别的常见/罕见的单词,代码如下:

代码语言:javascript
复制
   tfidf = TfidfVectorizer()
   train_X = tfidf.fit_transform(train_X)

测试数据的预处理步骤:

将punctuation

  • remove stopwords

  • spelling correction

  • Lemmatization

  • calculate
  1. 转换为小写
  2. ,用以下代码删除tf-

向量:

代码语言:javascript
复制
   test_X = tfidf.transform(test_X)

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-14 09:27:53

你好,欢迎来到论坛!我可以补充一些:

  • 将所有数字转换为它们的单词等价物(以避免有些在数字中,有些在单词中)。您也可以通过使用常规的expression.
  • Expanding缩写将所有数字转换为一个特殊的单词,如NUM。也许一位用户使用了Resources.
  • Stemming:和另一种eat)
  • Strip,即从单词中删除词缀(后缀、前缀),以获得单词词干(例如,如果applicable
  • Remove“停止”诸如" the“、”和“、"a”之类的单词,但也是在您的评论中使用的最常见的单词,则使用HH.RR ->eat)
  • Strip额外的空格。所以,首先检查单词在文本中的分布,并过滤顶部(无意义!)
  • 删除标题、页脚、HTML标记等噪声。

如果这回答了你的问题,请不要忘记在我的答案左边的复选键,以接受它。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61793454

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档