文章/答案/技术大牛

发布

社区首页 >问答首页 >数据点-在数据准备过程中花费的资源太少了吗？

问数据点-在数据准备过程中花费的资源太少了吗？
EN

Data Science用户

提问于 2020-06-13 14:17:43

回答 2查看 249关注 0票数 4

我正在网上学习分析，并有一些快速的问题。

通常，当我们进行分析时，为什么我们通常忽略频率较低的项/数据点？

比方说，我们有药物频度数据，也没有在医院里服用过这种药物的病人的数据。例如，数据如下所示，但在实时情况下，我甚至可能有数百万条记录。

从上面的屏幕截图中，我们可以知道，无论我们对上面的数据进行了何种分析和洞察力(包括很少几列没有在这里显示的数据)，我们肯定不会考虑Drug D。

这意味着我们的结论/洞察力不能建立在基于Drug D的数据基础上，因为每5000名患者中只有2名患者患有这种疾病，这比我们的数据中的0.05%要少。

从直觉上看，这似乎是有意义的，因为0.05%对产出的影响要小得多。

现在我的问题是Drug G是怎么回事？它在我们的数据中发生1.14%时间吗？

我怎么知道可以相信Drug D - 0.05%对输出的影响很小，可以忽略，而Drug G - 1.14%必须保留呢？

我不知道我的英语能力是否帮助你理解我想传达的信息。

编辑更新(如果之前我的问题不清楚，很抱歉)

我要做的是(不是ML任务，而是数据准备任务)，手动将药物名称映射到字典(Data Preparation task)中可用的术语。正如您在屏幕截图中看到的那样，Drug A被映射到ABCDE A。同样，我必须手动绘制所有50K药物的地图。不过，我的问题如下：

( a)我不能花费资源(金钱/人员)手动(因为它不能自动化)检查所有的50K药品，并把它映射到断续条件，因为没有人有兴趣做这项工作。不管谁对此感兴趣，都是不愿意的，也不可能做完所有的50K毒品，这会招致这么多的钱来支付它们。因此，我必须确保手动审查员首先关注重要(高频率)术语，甚至可以忽略DRUG D或DRUG G，因为它们对数据贡献很少(考虑到全部的百万条记录)？问题主要是基于系统方法/数学方法的决策，而不是我的判断/视觉检查/主观。

( b)因此，我现在想知道是否有任何客观/系统/数学方法可以告诉我，我们可以忽略N%以下的所有药物等等。因为我不能仅仅说通过视觉检查，我觉得Drug G和Drug D可以被忽略。如果你要建议我Statistical significance test，你能不能请你指导我如何把这当成一个问题？因为我通常看到，它被用于假设检验。我能请你指导我吗？

machine-learning

neural-network

deep-learning

data-mining

statistics

回答 2

Data Science用户

回答已采纳

发布于 2020-06-13 16:03:09

实际上，与统计有关的一切(包括机器学习)都与学习机会有关，即试图确定观察结果在多大程度上是偶然的。

例如，人们可能想知道一种药物是否真的对某种特定的疾病有所帮助。如果我们观察到一名患者在服用药物后有所改善，就没有足够的证据可以得出结论，因为许多其他因素可能是导致这种改善的原因。这就是为什么一个人需要一个非常严格的协议，以获得一个统计上有意义的观察(两组病人，安慰剂等)。需要相当多的观察，否则就不可能区分“偶然”(任何其他因素)的效果和药物的真正效果。

( a)是否有任何系统的/数学的/理论的方法可以告诉我少于N%的东西太少而不能影响产出？

知道观察是否是偶然的标准方法是使用适当的统计显着性检验。它们有很多，它们取决于所测试的到底是什么。

b)你如何决定哪些物品太少而影响不了产出。你是否同意你的判断，这是一种主观的方法？

在ML中，通常采用一种更试验性的方法，例如，尝试/没有观察或特性，然后评估哪个版本工作得更好。当然，对更有可能奏效的东西有直觉是有帮助的。一般来说，包括非常罕见的观察是个坏主意，因为它很可能会导致过度适应，即当模型“学到”了一些实际上是偶然的东西。

在OP的更新之后添加

在这种情况下，这是一个资源分配问题，我不认为统计意义是相关的。假设你想根据一种药物的使用频率来优化体力劳动的使用，也就是说，最大限度地使用药物的唯一方法是被标记药物的频率之和，那么这很简单:按照它们的频率降序排列所有的药物，然后按照这个顺序进行手工注释。通过这种方式，你可以确定那些占更多病人的药物是先做的，所以每当人工注释停止时，就会标注出尽可能多的药物。

票数 7

Data Science用户

发布于 2020-06-13 18:45:26

除了Erwan的回答(这给出了很好的一般性建议)之外，当您决定保留数据时，还要考虑以下问题。

你想回答什么问题(S)？你想从这些数据中学到什么？

如果你试图建立一个模型来预测病人的康复，基于给药和其他生物医学数据的病人，如果它确实是一种非常罕见的治疗，最好排除药物G。包括它们可能会导致过度适应，特别是如果一个人有很大的影响。或者，您的模型可能会将药物G作为一种非常低的重要性，因为它的流行率很低。

正如Erwan所指出的，最好的方法是实验性的。查看您的模型在使用和不使用数据时的表现。然而，排除药物G有其自身的危险。如果药物G是一种新的治疗方法，那么下一轮你扔给你的模型的数据可能会有更多的药物G，而你的模型在这些数据上的表现会很差。在这种情况下，你可以随时修改你的模型。

考虑一个修改过的场景。你为生产药品G的公司工作。药品G相对较新，已被批准治疗条件X。一些X状态的病人也有Y状态，服用药物G似乎也有助于Y病情患者的改善。你的雇主想知道用药物G治疗Y的研究是否值得投资，以便与市场上的其他药物竞争。

但是，在第二个场景中，您不能忽略药物G的数据。但是，由于药物G在整个数据集中的表示不足，您仍然会遇到以下危险:一个过于合适的模型(回归问题中的一个挑战)，一个由于代表性不足(分类问题中的挑战)而低估了药物G的模型，或者一个统计上微不足道的结果(一般情况下的挑战)。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/75947

复制

相似问题

问数据点-在数据准备过程中花费的资源太少了吗？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据点-在数据准备过程中花费的资源太少了吗？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据点-在数据准备过程中花费的资源太少了吗？
EN