显然,深度学习方法并没有在表格数据问题[1,2]上取得最先进的结果。这一索赔似乎也为Kagglers所知。SOTA方法看起来像是梯度提升决策树。
对于为什么会发生这种情况,有什么直觉吗?有关于这个主题的相关文献吗?
神经网络是否有更强的IID假设来抑制表格数据中的学习?
文学:
发布于 2022-05-19 12:02:56
在我看来,深度学习方法最适合(但不仅仅是)在非常通用和同质的数据格式上进行表示法学习:声音、图像、文本、视频等。对于这些格式中的大多数,都有经过预先训练的模型,以达到最先进的效果。
相反,表格数据集通常具有更多异构和混乱的结构,通常与领域知识相关,这超出了自动表示学习的范围。因此,手工特征工程和梯度增强等方法表现得更好。
顺便说一句,深度学习中最强大的力量来自于微调模型,这些模型已经在庞大的数据集上进行了预培训,比如Google提供文本数据的BERT。然后,考虑到在杂乱无章的表格数据集上使用预先训练过的深度学习模型是多么困难或不可能,在这种情况下,深度学习就失去了吸引力。
另一个原因是学习算法也有我们所说的归纳偏见。如果对于解决表格业务问题至关重要的领域知识本质上具有基于树的/分类结构,那么基于树的模型具有优势是合乎逻辑的。(因为即使是领域专家或标签注释器也会遵循基于树的过程)
另一方面,如果一组图像及其标签依赖于可以用过滤器捕捉到的空间特征,那么CNN的深入学习就会做出更好的假设。
最后,由于深度学习模型需要学习大量的参数,因此需要大量的数据集来避免过度拟合。因此,当获取更多的数据很困难/昂贵时,小型表格数据集就不是一个很好的选择。
发布于 2022-09-27 17:33:54
我的直觉是,这是因为表格数据不一定形成一个多个。
文献中对这一假设的支持是有限的和间接的:
根据1,流形假设2指出,所有的自然数据都位于一个嵌入在高维特征空间中的低维空间(一个流形)中,其局部行为类似于欧几里德空间。而深入学习模型可以学习这些流形,这也是为什么它们能工作得这么好的原因。然而,作者并没有明确定义什么是“自然数据”,但他提供了一些例子,如人脸、MNIST数字、自然语言和人类声音。与此相一致的是,3.提供了图像作为自然数据的示例,而4.指出,一些图像和视频数据实际上形成了一个流形。(4.还提供了其他非神经、流形学习算法的示例。)
总之,我推断这些作者在谈论自然数据时并没有提到表格数据。因此,神经网络可能不能很好地工作,因为表格数据并不构成一个流形。
至少对于我们通常对表格数据进行编码的方式是这样的,即可能以嵌入流形的方式表示表格数据。但这只是猜测。(已经有几个例子向这一方向发展:CNN的一些应用程序在数据可视化/绘图上运行,另一个例子是变压器,它们能够有限地从自然语言学习算术运算。)
此外,1提出了神经网络工作良好的观点,因为它们的结构的归纳偏差反映了数据(例如,CNN有一个非常特殊的结构,对图像数据特别有效)。我再次猜测,但也许我们将开发未来的体系结构,提供适合于表格数据或某些特殊类型的表格数据的归纳偏差。但是目前我们还没有这些,这也是为什么神经网络在表格数据上缺乏性能的另一个原因。
1 Chollet,Francois;“用Python进行深度学习”;第二版,2021年
4. Cayton,Lawrence;“流形学习算法”;2005年;https://www.lcayton.com/resexam.pdf
https://datascience.stackexchange.com/questions/110967
复制相似问题