首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >(手工)特征提取是否过时?

(手工)特征提取是否过时?
EN

Data Science用户
提问于 2019-10-30 10:52:42
回答 4查看 3.6K关注 0票数 9

最近,我参加了一次PhD论文答辩,其中一名委员会成员声称,“手工特征提取已经过时。如今,我们有深度机器学习模型为我们自动完成这项工作。”

这句话是真的吗?如果是,请提供证明这一索赔的参考资料。

编辑:显然,根据数据类型,似乎有不同的答案。因此,请告诉我是否有任何参考资料证实了你们对图像、时间序列等的要求.分开。

EN

回答 4

Data Science用户

回答已采纳

发布于 2019-10-30 12:00:12

在一般情况下,这绝不是事实。让我们详细分析不同数据场景的情况:

  • 对于有区别的图像模型(例如图像分类/标记),这对于某些场景是正确的。你只需向你的数据抛出一些凸网(甚至是预先训练过的模型),就这样。然而,使自己从“专家知识”中获益,即信息局部性是重要的,分层信息处理也是如此。对于其他一些场景,应用领域知识(例如,特定的数据转换)可能会使结果达到所需的质量水平。
  • 对于许多图像处理问题,神经网络在注入某种诱导偏差(如注意力)时效果最好。
  • 对于自然语言处理(NLP)问题,目前需要大量的工艺技术,尤其是在数据预处理阶段。
  • 对于“典型的数据科学”问题,进行特征提取也是至关重要的。您可以查看卡格尔竞赛来验证这一点。
  • 对于时间序列问题,根据数据的性质,依靠专家知识来理解哪些模型最适合,也是正常的。

然而,我认为深入学习领域的发展趋势(即大量可用数据)是试图设计出经过端到端培训的系统,并尽可能少地进行特殊处理。然而,很多时候,这是通过将专家知识以归纳偏差的形式注入网络来实现的。

票数 14
EN

Data Science用户

发布于 2019-10-30 11:09:19

不,手工特征提取还没有过时。此外,手工特征提取是很难完成的,鉴于数据科学家需要业务和领域逻辑来构建一个健壮的模型来复制和捕捉数据中的趋势和模式。然而,也有一些例外,如图像数据。

取决于,如果它的图像数据,是的,该语句为真。有许多深度学习技术,如CNN,可以自动提取特征。但是,如果您的数据是结构(即标准表格式),则需要使用p_value、相关分析、chi检验和feature_selection模型(如PCA和降维)来选择特征。

下面列出了一系列特征提取技术(需要人工干预的i.e.manual特征提取技术;这些不是深度学习的提取技术,尽管是自动化的):

  • 独立分量分析
  • Isomap
  • 核主元分析
  • 潜在语义分析
  • 偏最小二乘
  • 主成分分析
  • 多因素降维
  • 非线性降维
  • 多线性主成分分析
  • 多线性子空间学习
  • 半定嵌入
  • 自动编码器

以下是深度学习特征提取技术的列表:

  • 卷积
票数 11
EN

Data Science用户

发布于 2019-10-30 12:09:15

DL方法的主要优点之一是它们可以从原始数据中工作,并且通常比具有精心构建的特性的传统方法表现得更好。因此,认为传统的特性工程已经过时是非常诱人的,因为它需要更多的工作,而且常常导致性能下降。

但是,在以这种方式丢弃特性工程之前,您应该小心:

  • 首先,作为科学家,我们应该警惕技术趋势的动态性质。例如,很少有ML专家在15-20年前将神经网络作为下一个大事件进行押注。我们应该评估ML方法的演变,而不是盲目地采用最新的技术。
  • DL方法计算量大,通常需要大量的数据。在更轻量级的传统方法更适合的情况下,仍然存在许多应用程序/问题。
  • DL方法本质上不太容易解释其结果。可解释性/可解释性已经是一个重要的问题,当ML的应用程序遇到现实问题时,它可能变得更加重要:伦理问题(如果ML系统是种族主义的怎么办?),法律问题(为什么ML系统做出错误的决定,谁负责?)。相比之下,一些统计方法,如决策树,提供了一个非常清楚的解释他们的决定。
  • 在某些情况下,将特征工程留给DL是次优。有一些结果(据我所知,在NLP中)表明,在一些特定的问题上,精心设计的特性比DL表现得更好。我不知道这些是重要的还是仅仅是例外的规则。主观解释:可能存在“设计懒惰”的风险,即指望DL来完成这项工作,而不是正确地理解和构造问题。
票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/62409

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档