首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用HAIL解析.bgen文件,而无需在单个节点上加载数据

使用HAIL解析.bgen文件,而无需在单个节点上加载数据
EN

Stack Overflow用户
提问于 2020-09-10 18:28:50
回答 1查看 49关注 0票数 0

我正在尝试使用HAIL解析以.bgen格式传送到Spark DF的基因组数据。该文件有150 GB大小,无法放入我的集群中的任何一个节点中。

我想知道是否有流命令/方法可以将数据解析成我想要的目标格式,而不需要我提前将数据加载到内存中。

我真的很感谢任何意见/想法!非常感谢!

EN

回答 1

Stack Overflow用户

发布于 2020-09-11 23:56:13

您是否可以使用独立的BGEN阅读器来获取所需内容,然后将其转换为您想要的格式?

代码语言:javascript
复制
    import numpy as np
    from bgen_reader import open_bgen

    bgen = open_bgen("M:/deldir/genbgen/good/merged_487400x1100000.bgen")
     # read all samples and variants 1M to 1M+31
    val = bgen.read(np.s_[:,1000000:1000031])
    print(val.shape)

=> (487400,31,3)

“bed-reader”库提供了一个受NumPy启发的应用程序接口,使得将BGEN文件的切片读取到NumPy数组中变得非常快速和容易。第一次读取时,它会创建一个元数据文件。在那之后,它立即开始,它每秒读取数百万的概率。

我很乐意在用法或问题上提供帮助。

  • Carl
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63827748

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档