首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >自动清洗数据

自动清洗数据
EN

Data Science用户
提问于 2018-12-02 16:28:13
回答 1查看 361关注 0票数 1

数据使用自动清洗工具吗?

我的意思是类似于h2o.ai的自动ml函数,但用于预处理数据。或者你总是“用手”清理数据。

EN

回答 1

Data Science用户

发布于 2018-12-02 22:50:02

清洁数据在不同的数据之间有很大差异。考虑到您主要讨论的是非结构化数据,它可以分为两种类型,即图像数据和文本数据。清理这两个数据的过程取决于使用这些数据所需达到的目标类型。一个简短的过程可以解释如下:

  • 图像数据:在对数据进行卷积神经网络的同时,自动从数据中提取特征。需要针对目标进行具体的预处理.这包括:
    • 将数据集与要测试模型的实际数据保持接近。
    • 删除与相应标签不协调的任何不必要的图像.
    • 根据模型要求调整图像大小。

  • 文本数据:文本数据有一个强大的预处理过程,包括删除停止词、标记化、对标记进行柠檬化等。当我们使用单词vec方法时,我们需要将文本标记转换成相应的字向量。

通常,为这些过程设计的函数被输入到管道中,因此每个条目都不需要以类似的方式处理。

我建议你读一些论文和博客:实现病人数据自动清洗将凌乱的数据转化为Tidy数据

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/41984

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档