文章/答案/技术大牛

发布

社区首页 >问答首页 >使用HAIL解析.bgen文件，而无需在单个节点上加载数据

问使用HAIL解析.bgen文件，而无需在单个节点上加载数据
EN

Stack Overflow用户

提问于 2020-09-10 18:28:50

回答 1查看 49关注 0票数 0

我正在尝试使用HAIL解析以.bgen格式传送到Spark DF的基因组数据。该文件有150 GB大小，无法放入我的集群中的任何一个节点中。

我想知道是否有流命令/方法可以将数据解析成我想要的目标格式，而不需要我提前将数据加载到内存中。

我真的很感谢任何意见/想法！非常感谢!

spark-streaming

genetics

genome

hail

回答 1

Stack Overflow用户

发布于 2020-09-11 23:56:13

您是否可以使用独立的BGEN阅读器来获取所需内容，然后将其转换为您想要的格式？

    import numpy as np
    from bgen_reader import open_bgen

    bgen = open_bgen("M:/deldir/genbgen/good/merged_487400x1100000.bgen")
     # read all samples and variants 1M to 1M+31
    val = bgen.read(np.s_[:,1000000:1000031])
    print(val.shape)

=> (487400，31，3)

“bed-reader”库提供了一个受NumPy启发的应用程序接口，使得将BGEN文件的切片读取到NumPy数组中变得非常快速和容易。第一次读取时，它会创建一个元数据文件。在那之后，它立即开始，它每秒读取数百万的概率。

我很乐意在用法或问题上提供帮助。

Carl

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63827748

复制

相似问题

问使用HAIL解析.bgen文件，而无需在单个节点上加载数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用HAIL解析.bgen文件，而无需在单个节点上加载数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用HAIL解析.bgen文件，而无需在单个节点上加载数据
EN