首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏翻译scikit-learn Cookbook

    Working with categorical variables处理分类变量

    However, if you require more sophisticated categorical encoding, patsy is a very good option. Patsy patsy is another package useful to encode categorical variables. . patsy是编码分类变量非常有用的另一个python包,经常和StatsModels结合一起使用,patsy能够将字符数组转换成设计好的矩阵。 例如,若X,Y都是字符串,dm = patsy.design_matrix("x + y") 将生成相应的列,如果不是,内置C(x)公式将默认它们的值为分类变量。 Therefore, use the following command:例如,如果我们不清楚,iris.target可能会被认为是连续变量,因此,使用以下代码: import patsy patsy.dmatrix

    1K20发布于 2019-10-29
  • 来自专栏SeanCheney的专栏

    《利用Python进行数据分析·第2版》第13章 Python建模库介绍13.1 pandas与模型代码的接口13.2 用Patsy创建模型描述13.3 statsmodels介绍13.4 sciki

    13.2 用Patsy创建模型描述 Patsy是Python的一个库,使用简短的字符串“公式语法”描述统计模型(尤其是线性模型),可能是受到了R和S统计编程语言的公式语法的启发。 公式进行数据转换 你可以将Python代码与patsy公式结合。 Patsy有内置的函数进行这样的工作: In [44]: y, X = patsy.dmatrices('y ~ standardize(x0) + center(x1)', data) In [45 的patsy.builtins模块还有一些其它的内置转换。 分类数据和Patsy 非数值数据可以用多种方式转换为模型设计矩阵。完整的讲解超出了本书范围,最好和统计课一起学习。 当你在Patsy公式中使用非数值数据,它们会默认转换为虚变量。

    2.5K60发布于 2018-04-24
  • 来自专栏翻译scikit-learn Cookbook

    Using LDA for classification使用LDA线性判别分析来分类

    To do this, we'll use the patsy library. 包能做到这个,这是一个很好的包常被用于生成在R中很流行的设计矩阵 import patsy X = patsy.dmatrix("Open + High + Low + Close + Volume + 1", data.reset_index(),return_type='dataframe') X.head() The following is the output:输出如下 image.png patsy In patsy , it's possible, like in R,to modify the formula in a way that corresponds to modifications in the design matrix. patsy是非常强大的包,例如,假如我们需要应用一些第一章提到的数据预处理过程,Premodel Workflow,在patsy,可能像R一样,来调整方程与在设计矩阵中调整相关性的方法相同

    91720发布于 2019-12-03
  • 来自专栏量化小白上分记

    从零开始学量化(五):用Python做回归

    statsmodels.api(sm) sm.ols是statsmodels中另一个回归的模块,它的输入类似lstsq,输入变量y,x即可,这里使用patsy中的dmatrics生成x,y,需要注意的是 import statsmodels.api as sm from patsy import dmatrices from scipy.linalg import toeplitz import numpy.linalg http://www.statsmodels.org/stable/index.html https://patsy.readthedocs.io/en/latest/API-reference.html #patsy.DesignInfo.linear_constraint https://tedboy.github.io/statsmodels_doc/_modules/statsmodels/sandbox

    8.6K31发布于 2019-07-10
  • 来自专栏DeepHub IMBA

    用于时间序列数据的泊松回归模型

    import statsmodels.api as sm import statsmodels.discrete.discrete_model as dm import numpy as np from patsy 假定存在回归截距: expr = 'strikes ~ output 我们将使用Patsy来计算X和y矩阵。 Patsy会自动向X添加回归截距列: y_train, X_train = dmatrices(expr, strikes_data_train, return_type='dataframe') output + ln_strikes_adj_lag1 + ln_strikes_adj_lag2 + ln_strikes_adj_lag3 + d_lag1 + d_lag2 + d_lag3' 使用Patsy 我们将使用Patsy来查看(y_test, X_test): y_test, X_test = dmatrices(expr, strikes_data_test, return_type='dataframe

    2.5K30发布于 2021-04-30
  • 来自专栏信数据得永生

    Python 数据分析(PYDA)第三版(六)

    12.2 使用 Patsy 创建模型描述 Patsy是一个用于描述统计模型(尤其是线性模型)的 Python 库,它使用基于字符串的“公式语法”,受到 R 和 S 统计编程语言使用的公式语法的启发(但并非完全相同 公式中的数据转换 您可以将 Python 代码混合到您的 Patsy 公式中;在评估公式时,库将尝试在封闭范围中找到您使用的函数: In [42]: y, X = patsy.dmatrices('y Patsy 具有内置函数用于此目的: In [44]: y, X = patsy.dmatrices('y ~ standardize(x0) + center(x1)', data) In [45] 在patsy.builtins模块中还有几个内置转换。 当您在 Patsy 公式中使用非数字术语时,默认情况下它们会被转换为虚拟变量。

    68000编辑于 2024-05-24
  • 来自专栏信数据得永生

    NumPy 秘籍中文第二版:十、Scikits 的乐趣

    准备 在开始之前,我们可能需要安装 patsypatsy 是描述统计模型的库。 很容易看出这个库是否是必需的。 只需运行代码。 如果您收到与 patsy 相关的错误,请执行以下任一命令: $ sudo easy_install patsy $ pip install --upgrade patsy 操作步骤 在本节中,我们将从

    3.9K20编辑于 2023-04-17
  • 来自专栏Python进阶之路

    import statsmodels.api as sm 时 ImportError: DLL load failed while importing _arpack: 找不到指定的程序。

    python\anaconda3\lib\site-packages (from statsmodels==0.12.0) (1.3.4) Requirement already satisfied: patsy =0.12.0) (2020.1) Requirement already satisfied: six in d:\python\anaconda3\lib\site-packages (from patsy

    2K20编辑于 2022-05-09
  • 来自专栏数据STUDIO

    再见pip & conda!管理Python依赖关系的更好的选择:Poetry

    ==0.13.2' --info dependencies: - numpy >=1.21.2,<2.0a0 - packaging >=21.3 - pandas >=1.0 - patsy numexpr[version='>=2.7.0|>=2.7.1|>=2.7.3'] numexpr pandas==1.5.3 -> numexpr[version='>=2.7.3'] Package patsy conflicts for: statsmodels==0.13.2 -> patsy[version='>=0.5.2'] patsy Package chardet conflicts for:

    4.2K20编辑于 2023-09-04
  • 来自专栏野生AI架构师

    明月机器学习系列(六):构建机器学习or深度学习环境

    ' \ 'scikit-learn' \ 'scikit-image' \ 'sympy' \ 'cython' \ 'patsy

    1.3K10发布于 2021-10-28
  • 来自专栏大大的小数据

    用金山文档的python运行复杂统计计算行不行之一?2024.3.20

    65 patsy==0.5.6 patsy 统计模型描述生成工具 在Python中声明式地表示统计模型的库。

    61910编辑于 2024-03-25
  • 来自专栏WTSolutions

    迅投QMT量化交易系统新手指南及常见问题

    QMT自带python库 QMT里面内置了一些常用的python库,包括: numpy, pandas, patsy, scipy, statsmodels, TA_Lib 其中多种指标如 ADX, MACD

    2.6K10编辑于 2025-03-06
  • 来自专栏信数据得永生

    Scikit-learn 秘籍 第四章 使用 scikit-learn 对数据分类

    为此,我们会使用patsy库。这是一个非常棒的库,可以用于创建和 R 相似的决策矩阵。 >>> import patsy >>> X = patsy.dmatrix("Open + High + Low + Close + Volume + is_higher - 1", data.reset_index(), return_type='dataframe') >>> X.head() 输出如下: patsypatsy中,可以像 R 一样,修改公式相当于修改决策矩阵。这里并不会这么做,但是如果我们打算将数据缩放为均值 0 和标准差 1,函数就是scale(open) + scale(high)。

    63800编辑于 2022-12-01
  • 来自专栏红色石头的机器学习之路

    专栏 | 基于 Jupyter 的特征工程手册:数据预处理(二)

    .]; # 可以通过如下代码计算变量Type的Helmert 矩阵 from patsy.contrasts import Helmert levels = [1,2,3,4,5] # 3个变量值 缺失 => [ 1. 0. 0. 0. 1.]; # 可以通过如下代码计算变量Type的Deviation 矩阵 from patsy.contrasts

    1.2K10编辑于 2022-01-14
  • 来自专栏磐创AI技术团队的专栏

    17种将离散特征转化为数字特征的方法

    def do_polynomial_encoding(order): # 代码来自https://github.com/pydata/patsy/blob/master/patsy/contrasts.py

    4.4K31发布于 2020-12-24
  • 来自专栏拓端tecdat

    Python+AI提示词用贝叶斯样条回归拟合BSF方法分析樱花花期数据模型构建迹图、森林图可视化

    并确定它们的先验分布 COORDS = {"splines": np.arange(B.shape\[1\])} with pm.Model 在这个模型中,我们使用了15个节点将年份数据分成了16个部分,并使用patsy

    31210编辑于 2025-04-02
  • 来自专栏python深度学习

    使用python的虚拟环境virtualenv

    scikit-learn, scikit-image, PyWavelets, pytools, pythreejs, pyscf, pyarrow, projectq, plotdigitizer, patsy

    7.7K30发布于 2021-04-02
  • 来自专栏大数据文摘

    驰骋股市!手把手教你如何用Python和数据科学赚钱?

    加载数据 让我们开始使用代码库: import pandas as pd import numpy as np import patsy pd.core.common.is_list_like = pd.api.types.is_list_like

    1.2K30发布于 2018-10-18
  • 来自专栏华章科技

    盘点最重要的7个Python库

    Nathaniel Smith 开发了Patsy项目,为R语言公式系统所驱动的statsmodels包提供公式、模型规范框架。

    1.3K10发布于 2021-02-05
  • 来自专栏数据分析1480

    整理了25个Pandas实用技巧(上)

    Cython: None numpy: 1.16.4 scipy: None pyarrow: None xarray: None IPython: 7.5.0 sphinx: None patsy

    2.9K20发布于 2020-04-30
领券