我的导师希望我撰写并提交一篇学术论文,报告一个预测模型,但没有任何验证分数。
我在教科书或互联网上读到的每一篇文章都说这是错误的,但是,是否有任何情况下,只有报告一个火车得分是合理的?
该模型是由我们团队中的人“手工”匹配的,使用了从我们的整个数据集中提取的特征的视觉检查。它是一个线性模型,基于手工绘制的特征,从一些非常非线性和高维数据中提取。线性模型基于不到50个特征,但这些特征是从数千个特征中提取出来的。我们没有任何数据可用作验证。
发布于 2019-09-27 08:12:23
这里最有可能的问题是
50个特征,但这些特征是从数以千计的
如果这些特征是根据数据前分析理论选择的,而不考虑其他选择,那么一个符合数据的线性模型就可以有力地证明这一理论是合理的。
然而,一个线性模型,由于选择了一个大的特征集,以使其适合,很可能是过分适合。在这种情况下,您绝对需要一个持久的测试数据集,因为您已经使用了您的初始数据来形成一个假设,并且根本没有任何有效性的证据。
我不能建议你是否提交这份文件。也许有一些方法可以让你清楚地表明,这项工作建立了一个假设,而不是验证它(但是没有为验证缺乏严格性而歌舞足蹈,因为那时你正在破坏你自己的提交)。
我认为,只要你不试图混淆后续工作的不足,并且如此准确地提供结果,那么这是一个公平的提交--如果评审者想要看到某种验证,或者它可能被接受,那么它就可能被拒绝,并且需要在第二篇论文中对模型进行验证或反驳的后续工作。这可能是你的工作,也可能是另一个团队的工作。
这些场景的好坏取决于您的字段的一般工作方式。也许可以问一些关于https://academia.stackexchange.com/的相关细节来衡量你的反应,因为在某些方面这是一个人的问题--如何在保持你的工作和事业进步的同时取悦你的导师(这又取决于取悦你的主管和客观地表现出良好的工作)。
你的导师可能仍然愿意讨论这项工作的技术价值。也许他们还没有完全理解你所看到的模型是如何构建的。然而,他们可能完全理解这一点,并且可能能够从他们的观点来解释在这个项目的早期预验证阶段发布的优点。
发布于 2019-09-26 13:10:01
你说得对:如果没有适当的评估,体面的期刊/会议不太可能接受一篇论文。此外,该模型是手工制作的,这可能意味着它很难复制,对吗?我想你也不能做交叉验证吧?
我认为,我们需要相当有力的论据,才能证明一项没有科学依据、无法复制的贡献是合理的。我唯一能想到的办法是:
发布于 2019-09-26 16:55:56
我不知道你在哪个领域工作。然而,在一些学术领域,验证是不寻常的。一个突出的例子是计量经济学。原因是,您通常会想出一个理论模型,并尝试将这个“数据生成过程”转换为一个可以根据经验进行估计的模型。重要的是,这些模型并不是为了作出预测。他们的目的是统计推断。通常使用非常简单的统计模型(线性回归,logit),因为在那里很容易看到“边际效应”和方差。
然而,对于预测模型,没有验证集的想法听起来有点奇怪。在任何情况下,你应该看看相关的文献在您的领域。经过深思熟虑的文献复习一定会给你一个好机会。
https://datascience.stackexchange.com/questions/60821
复制相似问题