文章/答案/技术大牛

发布

社区首页 >问答首页 >多维稀疏数据的最佳数据结构

问多维稀疏数据的最佳数据结构
EN

Stack Overflow用户

提问于 2018-03-06 02:16:14

回答 1查看 451关注 0票数 3

我希望构造我的数据(类似于pandas)，以允许轻松地进行数据探索。我尝试使用xarray.DataArray来完成这个任务(推荐使用pandas http://pandas.pydata.org/pandas-docs/stable/dsintro.html#panel4d-and-panelnd-deprecated表示n维数据的方法)，但考虑到数据稀疏，它看起来效率很低。是否有更好的方法将我的数据以xarray.DataArray 或另一种数据结构来进行轻松的数据探索？

对数据的描述

我的数据包括给病人的处方。每个条目包括：

日期(datetime64)
病人身份证(int)
药物名称(字符串)
药物类型(串)
毒品类(串)
预定剂量(实际值)
所需剂量(实际值)

对于不同的病人，一次约会可能会有几种处方。病人还可以同时服用几种药物(如2-3种药物)，同时服用“强制性”剂量和“可选/视需要”剂量。我的数据集目前包括397个不同的病人，1520个不同的日期和161种不同的药物。在397*1520*161*2项中，我只有21790个非空项(即0.01%)。

初始代码

我的数据目前组织为以下xarray.DataArray

drugs = xarray.DataArray(dosages, coords={'patient': patients, 'time': dates, 
                                          'drug': drug_names, 'timing': timings, 
                                          'drug_type': ('drug', drug_types), 
                                          'drug_class': ('drug', drug_classes)},
                         dims=['patient', 'time', 'drug', 'timing'])

在哪里dosages.shape = (len(patients), len(dates), len(drug_names), 2)。timing轴对应于“计划”和“需要时”的剂量。所有缺失/零项都设置为numpy.nan。

python

python-3.x

pandas

python-xarray

回答 1

Stack Overflow用户

发布于 2018-04-05 15:05:21

目前(版本为0.10.2) xarray只支持密集数组，但是存在一个https://github.com/pydata/xarray/issues/1375问题，请求稀疏数组支持。对该问题的快速检查表明，通过启用xarray支持稀疏模块，正在积极开展这项工作。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49122420

复制

相似问题

问多维稀疏数据的最佳数据结构
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多维稀疏数据的最佳数据结构EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多维稀疏数据的最佳数据结构
EN