首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用patsy选择y变量/ LHS/内源侧的参考水平

使用patsy选择y变量/ LHS/内源侧的参考水平
EN

Stack Overflow用户
提问于 2014-07-31 09:36:05
回答 1查看 142关注 0票数 0

我试图使用Patsy来生成内源数据和外生数据,用于二元logistic回归。我在设定内生性方面的参考水平时遇到了问题。

下面的代码的问题是,内源方有两个层次,在二元逻辑回归中它应该只有一个层次。

代码语言:javascript
复制
import pandas as pd
import statsmodels.api as sm
import patsy

# data:
url = 'http://vincentarelbundock.github.io/Rdatasets/csv/datasets/iris.csv'
df = pd.read_csv(url)
df = df.iloc[:10,1:]
df = df.loc[ ( df.Species == 'setosa') | ( df.Species == 'versicolor' ) ,]
df.columns = ['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species' ]


y, X = patsy.dmatrices("C(Species,Treatment('versicolor')) ~ Sepal_Length",data = df, return_type = 'dataframe')

Y的形状是(100,2),但我只需要1列。那么,我如何让Patsy输出内源性方面,以便我可以直接使用它在二元逻辑回归?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-07-31 15:39:30

嗯,我的建议是在你做完上面的事后,把钱分给Y。Patsy并不是真正考虑到LHS变量的。在这种情况下,Statsmodels应该可以工作(目前,它不起作用,但这是状态模型的一个缺陷,海事组织)。如果您在github上提交错误报告,我可以查看它。)

FYI,你可以用

代码语言:javascript
复制
import statsmodels.api as sm
dta = sm.datasets.get_rdataset('iris', cache=True)

作为获取Rdatasets集数据的快捷方式。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25055539

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档