搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏翻译scikit-learn Cookbook
Working with categorical variables处理分类变量
However, if you require more sophisticated categorical encoding, patsy is a very good option. Patsy patsy is another package useful to encode categorical variables. . patsy是编码分类变量非常有用的另一个python包，经常和StatsModels结合一起使用，patsy能够将字符数组转换成设计好的矩阵。例如，若X，Y都是字符串，dm = patsy.design_matrix("x + y") 将生成相应的列，如果不是，内置C(x)公式将默认它们的值为分类变量。 Therefore, use the following command:例如，如果我们不清楚，iris.target可能会被认为是连续变量，因此，使用以下代码： import patsy patsy.dmatrix
1K20发布于 2019-10-29
来自专栏SeanCheney的专栏
《利用Python进行数据分析·第2版》第13章 Python建模库介绍13.1 pandas与模型代码的接口13.2 用Patsy创建模型描述13.3 statsmodels介绍13.4 sciki
13.2 用Patsy创建模型描述 Patsy是Python的一个库，使用简短的字符串“公式语法”描述统计模型（尤其是线性模型），可能是受到了R和S统计编程语言的公式语法的启发。公式进行数据转换你可以将Python代码与patsy公式结合。 Patsy有内置的函数进行这样的工作： In [44]: y, X = patsy.dmatrices('y ~ standardize(x0) + center(x1)', data) In [45 的patsy.builtins模块还有一些其它的内置转换。分类数据和Patsy 非数值数据可以用多种方式转换为模型设计矩阵。完整的讲解超出了本书范围，最好和统计课一起学习。当你在Patsy公式中使用非数值数据，它们会默认转换为虚变量。
2.5K60发布于 2018-04-24
来自专栏翻译scikit-learn Cookbook
Using LDA for classification使用LDA线性判别分析来分类
To do this, we'll use the patsy library. 包能做到这个，这是一个很好的包常被用于生成在R中很流行的设计矩阵 import patsy X = patsy.dmatrix("Open + High + Low + Close + Volume + 1", data.reset_index(),return_type='dataframe') X.head() The following is the output:输出如下 image.png patsy In patsy , it's possible, like in R,to modify the formula in a way that corresponds to modifications in the design matrix. patsy是非常强大的包，例如，假如我们需要应用一些第一章提到的数据预处理过程，Premodel Workflow，在patsy，可能像R一样，来调整方程与在设计矩阵中调整相关性的方法相同
91720发布于 2019-12-03
来自专栏量化小白上分记
从零开始学量化（五）：用Python做回归
statsmodels.api（sm) sm.ols是statsmodels中另一个回归的模块，它的输入类似lstsq，输入变量y，x即可,这里使用patsy中的dmatrics生成x，y，需要注意的是 import statsmodels.api as sm from patsy import dmatrices from scipy.linalg import toeplitz import numpy.linalg http://www.statsmodels.org/stable/index.html https://patsy.readthedocs.io/en/latest/API-reference.html #patsy.DesignInfo.linear_constraint https://tedboy.github.io/statsmodels_doc/_modules/statsmodels/sandbox
8.6K31发布于 2019-07-10
来自专栏DeepHub IMBA
用于时间序列数据的泊松回归模型
import statsmodels.api as sm import statsmodels.discrete.discrete_model as dm import numpy as np from patsy 假定存在回归截距： expr = 'strikes ~ output 我们将使用Patsy来计算X和y矩阵。 Patsy会自动向X添加回归截距列： y_train, X_train = dmatrices(expr, strikes_data_train, return_type='dataframe') output + ln_strikes_adj_lag1 + ln_strikes_adj_lag2 + ln_strikes_adj_lag3 + d_lag1 + d_lag2 + d_lag3' 使用Patsy 我们将使用Patsy来查看(y_test, X_test): y_test, X_test = dmatrices(expr, strikes_data_test, return_type='dataframe
2.5K30发布于 2021-04-30
来自专栏信数据得永生
Python 数据分析（PYDA）第三版（六）
12.2 使用 Patsy 创建模型描述 Patsy是一个用于描述统计模型（尤其是线性模型）的 Python 库，它使用基于字符串的“公式语法”，受到 R 和 S 统计编程语言使用的公式语法的启发（但并非完全相同公式中的数据转换您可以将 Python 代码混合到您的 Patsy 公式中；在评估公式时，库将尝试在封闭范围中找到您使用的函数： In [42]: y, X = patsy.dmatrices('y Patsy 具有内置函数用于此目的： In [44]: y, X = patsy.dmatrices('y ~ standardize(x0) + center(x1)', data) In [45] 在patsy.builtins模块中还有几个内置转换。当您在 Patsy 公式中使用非数字术语时，默认情况下它们会被转换为虚拟变量。
68000编辑于 2024-05-24
来自专栏信数据得永生
NumPy 秘籍中文第二版：十、Scikits 的乐趣
准备在开始之前，我们可能需要安装 patsy。 patsy 是描述统计模型的库。很容易看出这个库是否是必需的。只需运行代码。如果您收到与 patsy 相关的错误，请执行以下任一命令： $ sudo easy_install patsy $ pip install --upgrade patsy 操作步骤在本节中，我们将从
3.9K20编辑于 2023-04-17
来自专栏Python进阶之路
import statsmodels.api as sm 时 ImportError: DLL load failed while importing _arpack: 找不到指定的程序。
python\anaconda3\lib\site-packages (from statsmodels==0.12.0) (1.3.4) Requirement already satisfied: patsy =0.12.0) (2020.1) Requirement already satisfied: six in d:\python\anaconda3\lib\site-packages (from patsy
2K20编辑于 2022-05-09
来自专栏数据STUDIO
再见pip & conda！管理Python依赖关系的更好的选择：Poetry
==0.13.2' --info dependencies: - numpy >=1.21.2,<2.0a0 - packaging >=21.3 - pandas >=1.0 - patsy numexpr[version='>=2.7.0|>=2.7.1|>=2.7.3'] numexpr pandas==1.5.3 -> numexpr[version='>=2.7.3'] Package patsy conflicts for: statsmodels==0.13.2 -> patsy[version='>=0.5.2'] patsy Package chardet conflicts for:
4.2K20编辑于 2023-09-04
来自专栏野生AI架构师
明月机器学习系列（六）：构建机器学习or深度学习环境
' \ 'scikit-learn' \ 'scikit-image' \ 'sympy' \ 'cython' \ 'patsy
1.3K10发布于 2021-10-28
来自专栏大大的小数据
用金山文档的python运行复杂统计计算行不行之一？2024.3.20
65 patsy==0.5.6 patsy 统计模型描述生成工具在Python中声明式地表示统计模型的库。
61910编辑于 2024-03-25
来自专栏WTSolutions
迅投QMT量化交易系统新手指南及常见问题
QMT自带python库 QMT里面内置了一些常用的python库，包括： numpy, pandas, patsy, scipy, statsmodels, TA_Lib 其中多种指标如 ADX, MACD
2.6K10编辑于 2025-03-06
来自专栏信数据得永生
Scikit-learn 秘籍第四章使用 scikit-learn 对数据分类
为此，我们会使用patsy库。这是一个非常棒的库，可以用于创建和 R 相似的决策矩阵。 >>> import patsy >>> X = patsy.dmatrix("Open + High + Low + Close + Volume + is_higher - 1", data.reset_index(), return_type='dataframe') >>> X.head() 输出如下： patsy 在patsy中，可以像 R 一样，修改公式相当于修改决策矩阵。这里并不会这么做，但是如果我们打算将数据缩放为均值 0 和标准差 1，函数就是scale(open) + scale(high)。
63800编辑于 2022-12-01
来自专栏红色石头的机器学习之路
专栏 | 基于 Jupyter 的特征工程手册：数据预处理（二）
.]; # 可以通过如下代码计算变量Type的Helmert 矩阵 from patsy.contrasts import Helmert levels = [1,2,3,4,5] # 3个变量值缺失 => [ 1. 0. 0. 0. 1.]; # 可以通过如下代码计算变量Type的Deviation 矩阵 from patsy.contrasts
1.2K10编辑于 2022-01-14
来自专栏磐创AI技术团队的专栏
17种将离散特征转化为数字特征的方法
def do_polynomial_encoding(order): # 代码来自https://github.com/pydata/patsy/blob/master/patsy/contrasts.py
4.4K31发布于 2020-12-24
来自专栏拓端tecdat
Python+AI提示词用贝叶斯样条回归拟合BSF方法分析樱花花期数据模型构建迹图、森林图可视化
并确定它们的先验分布 COORDS = {"splines": np.arange(B.shape\[1\])} with pm.Model 在这个模型中，我们使用了15个节点将年份数据分成了16个部分，并使用patsy
31210编辑于 2025-04-02
来自专栏python深度学习
使用python的虚拟环境virtualenv
scikit-learn, scikit-image, PyWavelets, pytools, pythreejs, pyscf, pyarrow, projectq, plotdigitizer, patsy
7.7K30发布于 2021-04-02
来自专栏大数据文摘
驰骋股市！手把手教你如何用Python和数据科学赚钱？
加载数据让我们开始使用代码库： import pandas as pd import numpy as np import patsy pd.core.common.is_list_like = pd.api.types.is_list_like
1.2K30发布于 2018-10-18
来自专栏华章科技
盘点最重要的7个Python库
Nathaniel Smith 开发了Patsy项目，为R语言公式系统所驱动的statsmodels包提供公式、模型规范框架。
1.3K10发布于 2021-02-05
来自专栏数据分析1480
整理了25个Pandas实用技巧（上）
Cython: None numpy: 1.16.4 scipy: None pyarrow: None xarray: None IPython: 7.5.0 sphinx: None patsy
2.9K20发布于 2020-04-30

第 2 页

Working with categorical variables处理分类变量

《利用Python进行数据分析·第2版》第13章 Python建模库介绍13.1 pandas与模型代码的接口13.2 用Patsy创建模型描述13.3 statsmodels介绍13.4 sciki

Using LDA for classification使用LDA线性判别分析来分类

从零开始学量化（五）：用Python做回归

用于时间序列数据的泊松回归模型

Python 数据分析（PYDA）第三版（六）

NumPy 秘籍中文第二版：十、Scikits 的乐趣

import statsmodels.api as sm 时 ImportError: DLL load failed while importing _arpack: 找不到指定的程序。

再见pip & conda！管理Python依赖关系的更好的选择：Poetry

明月机器学习系列（六）：构建机器学习or深度学习环境

用金山文档的python运行复杂统计计算行不行之一？2024.3.20

迅投QMT量化交易系统新手指南及常见问题

Scikit-learn 秘籍第四章使用 scikit-learn 对数据分类

专栏 | 基于 Jupyter 的特征工程手册：数据预处理（二）

17种将离散特征转化为数字特征的方法

Python+AI提示词用贝叶斯样条回归拟合BSF方法分析樱花花期数据模型构建迹图、森林图可视化

使用python的虚拟环境virtualenv

驰骋股市！手把手教你如何用Python和数据科学赚钱？

盘点最重要的7个Python库

整理了25个Pandas实用技巧（上）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Working with categorical variables处理分类变量

《利用Python进行数据分析·第2版》第13章 Python建模库介绍13.1 pandas与模型代码的接口13.2 用Patsy创建模型描述13.3 statsmodels介绍13.4 sciki

Using LDA for classification使用LDA线性判别分析来分类

从零开始学量化（五）：用Python做回归

用于时间序列数据的泊松回归模型

Python 数据分析（PYDA）第三版（六）

NumPy 秘籍中文第二版：十、Scikits 的乐趣

import statsmodels.api as sm 时 ImportError: DLL load failed while importing _arpack: 找不到指定的程序。

再见pip & conda！管理Python依赖关系的更好的选择：Poetry

明月机器学习系列（六）：构建机器学习or深度学习环境

用金山文档的python运行复杂统计计算行不行之一？2024.3.20

迅投QMT量化交易系统新手指南及常见问题

Scikit-learn 秘籍 第四章 使用 scikit-learn 对数据分类

专栏 | 基于 Jupyter 的特征工程手册：数据预处理（二）

17种将离散特征转化为数字特征的方法

Python+AI提示词用贝叶斯样条回归拟合BSF方法分析樱花花期数据模型构建迹图、森林图可视化

使用python的虚拟环境virtualenv

驰骋股市！手把手教你如何用Python和数据科学赚钱？

盘点最重要的7个Python库

整理了25个Pandas实用技巧（上）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Scikit-learn 秘籍第四章使用 scikit-learn 对数据分类