首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将床文件读入熊猫数据仓库(windows)

将床文件读入熊猫数据仓库(windows)
EN

Stack Overflow用户
提问于 2019-10-01 06:10:02
回答 2查看 3.3K关注 0票数 1

对于一个生物信息学项目,我想把一个.BED文件读入熊猫的数据中,而不知道我如何做到这一点,也不知道需要什么工具/程序。我在互联网上发现的任何东西都不适合我,因为我正在使用Python3.7 (Anaconda发行版)编写windows10。

任何帮助都将不胜感激。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-10-01 07:04:13

根据https://software.broadinstitute.org/software/igv/BED的说法:

床文件(.bed)是一个由制表符分隔的文本文件,它定义了一个功能跟踪。

根据http://genome.ucsc.edu/FAQ/FAQformat#format1,它包含多达12个字段(列)和以单词'track'开头的可能的注释行。下面是一个将这样一个bed文件读取到熊猫数据中的最小程序。

代码语言:javascript
复制
import pandas as pd

df = pd.read_csv('so58178958.bed', sep='\t', comment='t', header=None)
header = ['chrom', 'chromStart', 'chromEnd', 'name', 'score', 'strand', 'thickStart', 'thickEnd', 'itemRgb', 'blockCount', 'blockSizes', 'blockStarts']
df.columns = header[:len(df.columns)]

这只是一个非常简单的代码片段,将以't'开头的所有行作为注释处理。这应该是因为所有“chrom”字段条目都应该以'c''s'或数字开头。

票数 1
EN

Stack Overflow用户

发布于 2020-04-22 08:22:13

如果使用吡喃,则会为df指定名称和列适当的数据类型。

代码语言:javascript
复制
import pyranges as pr

df = pr.read_bed("your.bed", as_df=True)

它也有一些读者,例如gtfs和gff3s等杂乱的生物信息学格式。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58178958

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档