我正在尝试使用HAIL解析以.bgen格式传送到Spark DF的基因组数据。该文件有150 GB大小,无法放入我的集群中的任何一个节点中。
我想知道是否有流命令/方法可以将数据解析成我想要的目标格式,而不需要我提前将数据加载到内存中。
我真的很感谢任何意见/想法!非常感谢!
发布于 2020-09-11 23:56:13
您是否可以使用独立的BGEN阅读器来获取所需内容,然后将其转换为您想要的格式?
import numpy as np
from bgen_reader import open_bgen
bgen = open_bgen("M:/deldir/genbgen/good/merged_487400x1100000.bgen")
# read all samples and variants 1M to 1M+31
val = bgen.read(np.s_[:,1000000:1000031])
print(val.shape)=> (487400,31,3)
“bed-reader”库提供了一个受NumPy启发的应用程序接口,使得将BGEN文件的切片读取到NumPy数组中变得非常快速和容易。第一次读取时,它会创建一个元数据文件。在那之后,它立即开始,它每秒读取数百万的概率。
我很乐意在用法或问题上提供帮助。
https://stackoverflow.com/questions/63827748
复制相似问题