文章/答案/技术大牛

发布

社区首页 >问答首页 >使用patsy选择y变量/ LHS/内源侧的参考水平

问使用patsy选择y变量/ LHS/内源侧的参考水平
EN

Stack Overflow用户

提问于 2014-07-31 09:36:05

回答 1查看 142关注 0票数 0

我试图使用Patsy来生成内源数据和外生数据，用于二元logistic回归。我在设定内生性方面的参考水平时遇到了问题。

下面的代码的问题是，内源方有两个层次，在二元逻辑回归中它应该只有一个层次。

import pandas as pd
import statsmodels.api as sm
import patsy

# data:
url = 'http://vincentarelbundock.github.io/Rdatasets/csv/datasets/iris.csv'
df = pd.read_csv(url)
df = df.iloc[:10,1:]
df = df.loc[ ( df.Species == 'setosa') | ( df.Species == 'versicolor' ) ,]
df.columns = ['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species' ]


y, X = patsy.dmatrices("C(Species,Treatment('versicolor')) ~ Sepal_Length",data = df, return_type = 'dataframe')

Y的形状是(100，2)，但我只需要1列。那么，我如何让Patsy输出内源性方面，以便我可以直接使用它在二元逻辑回归？

statsmodels

python

python-3.x

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-07-31 15:39:30

嗯，我的建议是在你做完上面的事后，把钱分给Y。Patsy并不是真正考虑到LHS变量的。在这种情况下，Statsmodels应该可以工作(目前，它不起作用，但这是状态模型的一个缺陷，海事组织)。如果您在github上提交错误报告，我可以查看它。)

FYI，你可以用

import statsmodels.api as sm
dta = sm.datasets.get_rdataset('iris', cache=True)

作为获取Rdatasets集数据的快捷方式。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25055539

复制

相似问题

问使用patsy选择y变量/ LHS/内源侧的参考水平
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用patsy选择y变量/ LHS/内源侧的参考水平EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用patsy选择y变量/ LHS/内源侧的参考水平
EN