我正在网上学习分析,并有一些快速的问题。
通常,当我们进行分析时,为什么我们通常忽略频率较低的项/数据点?
比方说,我们有药物频度数据,也没有在医院里服用过这种药物的病人的数据。例如,数据如下所示,但在实时情况下,我甚至可能有数百万条记录。

从上面的屏幕截图中,我们可以知道,无论我们对上面的数据进行了何种分析和洞察力(包括很少几列没有在这里显示的数据),我们肯定不会考虑Drug D。
这意味着我们的结论/洞察力不能建立在基于Drug D的数据基础上,因为每5000名患者中只有2名患者患有这种疾病,这比我们的数据中的0.05%要少。
从直觉上看,这似乎是有意义的,因为0.05%对产出的影响要小得多。
现在我的问题是Drug G是怎么回事?它在我们的数据中发生1.14%时间吗?
我怎么知道可以相信Drug D - 0.05%对输出的影响很小,可以忽略,而Drug G - 1.14%必须保留呢?
我不知道我的英语能力是否帮助你理解我想传达的信息。
编辑更新(如果之前我的问题不清楚,很抱歉)
我要做的是(不是ML任务,而是数据准备任务),手动将药物名称映射到字典(Data Preparation task)中可用的术语。正如您在屏幕截图中看到的那样,Drug A被映射到ABCDE A。同样,我必须手动绘制所有50K药物的地图。不过,我的问题如下:
( a)我不能花费资源(金钱/人员)手动(因为它不能自动化)检查所有的50K药品,并把它映射到断续条件,因为没有人有兴趣做这项工作。不管谁对此感兴趣,都是不愿意的,也不可能做完所有的50K毒品,这会招致这么多的钱来支付它们。因此,我必须确保手动审查员首先关注重要(高频率)术语,甚至可以忽略DRUG D或DRUG G,因为它们对数据贡献很少(考虑到全部的百万条记录)?问题主要是基于系统方法/数学方法的决策,而不是我的判断/视觉检查/主观。
( b)因此,我现在想知道是否有任何客观/系统/数学方法可以告诉我,我们可以忽略N%以下的所有药物等等。因为我不能仅仅说通过视觉检查,我觉得Drug G和Drug D可以被忽略。如果你要建议我Statistical significance test,你能不能请你指导我如何把这当成一个问题?因为我通常看到,它被用于假设检验。我能请你指导我吗?
发布于 2020-06-13 16:03:09
实际上,与统计有关的一切(包括机器学习)都与学习机会有关,即试图确定观察结果在多大程度上是偶然的。
例如,人们可能想知道一种药物是否真的对某种特定的疾病有所帮助。如果我们观察到一名患者在服用药物后有所改善,就没有足够的证据可以得出结论,因为许多其他因素可能是导致这种改善的原因。这就是为什么一个人需要一个非常严格的协议,以获得一个统计上有意义的观察(两组病人,安慰剂等)。需要相当多的观察,否则就不可能区分“偶然”(任何其他因素)的效果和药物的真正效果。
( a)是否有任何系统的/数学的/理论的方法可以告诉我少于N%的东西太少而不能影响产出?
知道观察是否是偶然的标准方法是使用适当的统计显着性检验。它们有很多,它们取决于所测试的到底是什么。
b)你如何决定哪些物品太少而影响不了产出。你是否同意你的判断,这是一种主观的方法?
在ML中,通常采用一种更试验性的方法,例如,尝试/没有观察或特性,然后评估哪个版本工作得更好。当然,对更有可能奏效的东西有直觉是有帮助的。一般来说,包括非常罕见的观察是个坏主意,因为它很可能会导致过度适应,即当模型“学到”了一些实际上是偶然的东西。
在OP的更新之后添加
在这种情况下,这是一个资源分配问题,我不认为统计意义是相关的。假设你想根据一种药物的使用频率来优化体力劳动的使用,也就是说,最大限度地使用药物的唯一方法是被标记药物的频率之和,那么这很简单:按照它们的频率降序排列所有的药物,然后按照这个顺序进行手工注释。通过这种方式,你可以确定那些占更多病人的药物是先做的,所以每当人工注释停止时,就会标注出尽可能多的药物。
发布于 2020-06-13 18:45:26
除了Erwan的回答(这给出了很好的一般性建议)之外,当您决定保留数据时,还要考虑以下问题。
你想回答什么问题(S)?你想从这些数据中学到什么?
如果你试图建立一个模型来预测病人的康复,基于给药和其他生物医学数据的病人,如果它确实是一种非常罕见的治疗,最好排除药物G。包括它们可能会导致过度适应,特别是如果一个人有很大的影响。或者,您的模型可能会将药物G作为一种非常低的重要性,因为它的流行率很低。
正如Erwan所指出的,最好的方法是实验性的。查看您的模型在使用和不使用数据时的表现。然而,排除药物G有其自身的危险。如果药物G是一种新的治疗方法,那么下一轮你扔给你的模型的数据可能会有更多的药物G,而你的模型在这些数据上的表现会很差。在这种情况下,你可以随时修改你的模型。
考虑一个修改过的场景。你为生产药品G的公司工作。药品G相对较新,已被批准治疗条件X。一些X状态的病人也有Y状态,服用药物G似乎也有助于Y病情患者的改善。你的雇主想知道用药物G治疗Y的研究是否值得投资,以便与市场上的其他药物竞争。
但是,在第二个场景中,您不能忽略药物G的数据。但是,由于药物G在整个数据集中的表示不足,您仍然会遇到以下危险:一个过于合适的模型(回归问题中的一个挑战),一个由于代表性不足(分类问题中的挑战)而低估了药物G的模型,或者一个统计上微不足道的结果(一般情况下的挑战)。
https://datascience.stackexchange.com/questions/75947
复制相似问题