对于一个生物信息学项目,我想把一个.BED文件读入熊猫的数据中,而不知道我如何做到这一点,也不知道需要什么工具/程序。我在互联网上发现的任何东西都不适合我,因为我正在使用Python3.7 (Anaconda发行版)编写windows10。
任何帮助都将不胜感激。
发布于 2019-10-01 07:04:13
根据https://software.broadinstitute.org/software/igv/BED的说法:
床文件(.bed)是一个由制表符分隔的文本文件,它定义了一个功能跟踪。
根据http://genome.ucsc.edu/FAQ/FAQformat#format1,它包含多达12个字段(列)和以单词'track'开头的可能的注释行。下面是一个将这样一个bed文件读取到熊猫数据中的最小程序。
import pandas as pd
df = pd.read_csv('so58178958.bed', sep='\t', comment='t', header=None)
header = ['chrom', 'chromStart', 'chromEnd', 'name', 'score', 'strand', 'thickStart', 'thickEnd', 'itemRgb', 'blockCount', 'blockSizes', 'blockStarts']
df.columns = header[:len(df.columns)]这只是一个非常简单的代码片段,将以't'开头的所有行作为注释处理。这应该是因为所有“chrom”字段条目都应该以'c'、's'或数字开头。
发布于 2020-04-22 08:22:13
如果使用吡喃,则会为df指定名称和列适当的数据类型。
import pyranges as pr
df = pr.read_bed("your.bed", as_df=True)它也有一些读者,例如gtfs和gff3s等杂乱的生物信息学格式。
https://stackoverflow.com/questions/58178958
复制相似问题