从一项行为研究中提取数据。这项研究是关于人们如何改变他们的饮食行为,遵循视觉暗示。对一组人来说:一组是视觉暗示,然后是记录他们选择吃的东西,另一组是随机的东西,或者什么也没有,然后记录下来,他们选择吃。这个实验在同一人身上重复了很多次,在一天中的不同时间。我有一个数据集,准确地记录了每个人的个人信息,以及他们在每次实验中的饮食行为。
其目的是预测视觉提示是否会让人吃下提示中所呈现的内容。问题是,我不清楚如何将治疗的影响与他们可能表现出来的行为区分开来。也就是说,假设一个人看到一个蛋糕的图像,然后,当他收到各种不同的食物时,吃蛋糕。我们怎么能知道,影响他的其实是他的形象,他根本不想吃蛋糕,所以这个形象实际上什么也不改变?
因此,我不能直接把它作为一个二元分类来定义一个分类特征,如果有人吃了图片中的东西,我会指定"1“,如果他不吃的话,我会指定"0”,因为那样的话,我还可以识别出那些想吃线索中的东西的人,然后才能给他们看。我该如何解决这个问题?
发布于 2018-10-13 19:59:54
我认为您可以将其作为一个逻辑回归问题来处理,其中您将有一个称为"exposure_to_image“的on/off (1/0)特性。你的目标是检测这个系数在统计上是否与0显著不同。如果是的话,那么食用该物品的可能性就会受到暴露的影响。
至于他们无论如何都会吃掉它的假设:这就是控制组的全部意义。因此,您的数据集将有exposure_to_image=1所在的人员,以及exposure_to_image=0的用户。所有这些人都有一些想要吃蛋糕的基本概率。但是这个系数告诉你基线受到了多大的影响。
发布于 2018-10-14 23:03:03
你试图估计的是平均治疗效果(ATE),也就是向随机抽样的人展示蛋糕图片的平均效果,即他们以后选择吃蛋糕的可能性。如果你的小组任务足够随机的话,治疗组和对照组都会有吃蛋糕的人和从不吃蛋糕的人。但是,对于ATE来说,这是可以接受的,这是当你对更多的普通人群进行治疗时,你应该看到的效果(或没有效果)。
你担心的是从根本上改变你的研究问题。如果你想知道给不吃蛋糕的人看一张蛋糕图片的治疗效果,关于他们以后选择吃蛋糕的可能性,你需要更多的控制。我能想到的一种方法是研究一项关于参与者饮食习惯的分离调查,看看每个参与者在任意一天吃蛋糕的可能性。将此作为回归模型的RHS中的控制变量可能会有潜在的帮助。然而,对任何事情都没有完美的控制。你需要做出假设并围绕它建立论点。
我想你会看到线性回归和logistic回归的估计结果非常相似(在系数的相对大小和方向上)。我在我的领域(社会科学)看到的是,线性回归(或线性概率模型,LPM)往往是首选的,因为它易于解释。对于logistic回归模型来说,用比特率来解释总是很痛苦的。
线性模型是大多数研究领域的规则,其中解释比其他任何东西都更重要。你可以用复杂的非线性模型对你的数据进行任意程度的拟合。但是当你需要解释,或者更重要的是因果解释时,线性模型是你最好的机会。
https://datascience.stackexchange.com/questions/39625
复制相似问题