我需要用固定效应(例如单位FE)和几个回归量(RHS变量)进行glm (泊松)估计。我有一个不平衡的面板数据集,其中大多数(~90%)的观测值(NA)对一些但不是所有的回归者都有缺失。
fixest::feglm()可以处理这件事,并返回我的贴身型号。然而,为了做到这一点,它(和fixest::demean也)删除了至少缺少一个回归元的观测值,在构造固定效果的方法之前。
在我的例子中,我担心这意味着没有在数据中使用大量的可用信息。因此,我想用手贬低我的变量,以便能够在每个固定效果维度的平均值中包含尽可能多的信息,然后对降级的数据运行feglm。然而,这意味着获得负因变量值,这是不兼容的泊松。如果我运行feglm与“泊松”家族和我的手动降级数据,我(相干)得到:“负值的因变量不允许”泊松“家族。”使用fixest::demean函数降级的数据也会返回相同的错误。
问题:
feglm如何处理降级的因变量的负值?是否有一种方法(如某些数据转换)在公式中的固定效果上再现fepois,而在降级数据上使用fepois,而没有固定效果公式?
要使用fixest::demean文档中的示例(带有双向固定效果):
data(trade)
base = trade
base$ln_dist = log(base$dist_km)
base$ln_euros = log(base$Euros)
# We center the two variables ln_dist and ln_euros
# on the factors Origin and Destination
X_demean = demean(X = base[, c("ln_dist", "ln_euros")],
fe = base[, c("Origin", "Destination")])
base[, c("ln_dist_dm", "ln_euros_dm")] = X_demean我想复制
est_fe = fepois(ln_euros ~ ln_dist | Origin + Destination, base)使用
est = fepois(ln_euros_dm ~ ln_dist_dm, base)发布于 2020-09-18 12:37:38
我认为有两个主要问题。
建模策略
一般来说,能够正式描述估计的模型是很重要的。在这种情况下,不可能用一个单一的方程来记录模型,其中固定效应是用所有的数据和其他变量来估计的,只有在没有丢失的观测数据上。如果模型不清楚那么..。也许这不是个好模型。
另一方面,如果你的模型被很好的定义,那么去除随机观测不应该改变系数的期望,而应该改变它们的方差。因此,如果您的模型是明确的,您不应该太担心。
通过建议有缺失值的观测值与估计固定效应系数相关(或者用不同的方式表示,它们被用来降低某些变量),这意味着这些观测值是而不是随机分布的。现在你该担心了。
仅仅利用这些观测数据来降低变量,并不能消除由于选择不丢失而导致的估计系数的偏差。这是一个更深层次的问题,不能通过技术技巧来消除,而是通过对数据的深刻理解来解决。
GLM
对GLM有误解。GLM是一个非常聪明的技巧,可以用OLS来估计最大似然模型(有一个很好的描述这里)。它是在常规优化技术在计算时间上非常昂贵的时候发展和使用的,它是一种使用成熟和快速的OLS技术来执行等价估计的方法。
GLM是一个迭代过程,其中典型的OLS估计是在每一步执行的,每次迭代中唯一的变化是与每个观察相关联的权重。因此,由于它是一个常规的OLS过程,可以利用具有多个固定效果的快速OLS估计的技术(就像在最固定的包中一样)。
所以实际上,你可以做你想做的..。但仅限于GLM算法的OLS步骤。在运行GLM之前,绝对不应该贬低数据,因为,这是没有意义的( FWL定理在这里完全站不住脚)。
https://stackoverflow.com/questions/63815714
复制相似问题