首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏科技记者

    生物信息学数据管理习题 Python3

    《Python生物信息学数据管理》 这是我两三年前学习过的一本书,我觉得这本书挺好,把生物学的问题直接在python学习中解决了,推荐给大家,之前还整理了习题代码,分享一下。 我是用python3完成的,当然二者区别也很小(目前我基本只认识到了print函数的区别),除非遇上那种多年不遇的bug。 这里要说下技能树赠送的《生物信息学讲义》,R语言的知识点讲的清晰明了,再次加深了这种感觉。虽然对于R语言还是在门口徘徊,但坚定了继续翻几本书将入门进行到底的决心。 http://mpvideo.qpic.cn/0bf26yaakaaahialzmfx6vpfb5wdax3aabia.f10002.mp4?

    1K20发布于 2020-05-18
  • 来自专栏生信挖掘姬

    基础生物信息学

    生物信息学序列分析是了解这些序列的核心,这本书简单介绍了DNA, RNA和蛋白质序列的研究。 生物信息学(Bioinformatics )涉及生成,可视化,分析,存储和检索大量的生物信息。 原始形式的生物医学数据(包括DNA序列)的生成不涉及生物信息学技能。但是为了使该序列可用,必须对其进行分析,注释和重新生成适合数据库的格式。这些都属于生物信息学分析范畴。 其中许多分析可以自动化,但需要具有生物信息学技能或经验的人来分析和支持。 一旦拿到数据,您如何分析数据呢?有没有DNA和蛋白质序列文件之类的文本呢? 生物信息学是最早接受科学技术的领域之一。网页是传播信息的工具,本书中我们将使用许多网页。 最后,生物信息学活动通常涉及大量数据。即使如果您只关注一个基因,那么仍然会有大量的数据连接到该单个序列。 尽管如此,生物信息学领域面临的最大的挑战之一是信息的绝对泛滥以及如何生成,可视化,分析,存储和检索这些数据,这无论怎么强调都不为过。

    74560发布于 2020-06-05
  • 来自专栏0基础入门Linux系统

    Linux day3:认识生物信息学数据的常见格式

    以上是计算第6个空格的所有数字相加为多少 大多数操作不会修改原文件,但以下操作会 1.cat > file 2.vim 3.把输入文件当作输出文件(会直接清空) 4.sed -i 也会修改原文件 例如: 生物信息学常见文件格式 fasta, fa, fna, faa, fas fasta:一种基于文本用于表示核酸序列或多肽序列的格式。

    58900编辑于 2024-03-21
  • 来自专栏生物信息云

    生物信息学初识篇——第二章:序列比对(3

    生物信息学初识篇——第二章:序列比对(1) 生物信息学初识篇——第二章:序列比对(2) 七、BLAST比对 之前用EMBL的双序列比对工具做全局比对,虽然很快就出结果了,但至少也要经历一两秒钟的时间。 3)给搜索任务起一个名字,如果输入的是 FASTA 格式的序列,那么在输入框里面点一下,序列的名字就会被自动识别出来。 3)在算法选择这一栏里,有之前提到的三种不同的 BLAST 算法,标准BLAST,PSI-BLAST 和 PHI-BLAST。这一次我们先尝试标准 BLAST。所有参数设置完毕之后,点 BLAST。 正则表达式,{ }代表除什么以外,[ ]代表其中之一,x 代表任意字母,(3,7)代表 3 到 7 个某字符。 3 到 7 个任意字符。

    11.3K55发布于 2019-08-07
  • 来自专栏Y大宽

    通过简单数据熟悉Linux下生物信息学各种操作3

    原地址 一共三部分 通过简单数据熟悉Linux下生物信息学各种操作1 通过简单数据熟悉Linux下生物信息学各种操作2 通过简单数据熟悉Linux下生物信息学各种操作3 ---- 15awk的简单使用 gb > NC.gb ~/bin/readseq -format=GFF -o NC.gff NC.gb 找到每个feature的长度 cat NC.gff |awk '{print $1,$2,$3} 计算每个feature的长度 cat NC.gff | awk ' { print $3, $5-$4 + 1 } ' | head -5 1 source 1 source 18959 5'UTR 55 gene 2971 仅提取CDS features cat NC.gff|awk '$3=="CDS" {print $3,$5-$4+1,$9}' CDS 2220 gene CDS 1023 为了清楚表示,不用这个运算符,比对结果看 cat NC.gff | awk '$3 =="gene" { len=$5-$4 + 1; size += len; print "Size:", size

    75130发布于 2019-07-02
  • 来自专栏生信菜鸟团

    读《理解生物信息学

    生物信息学不只是画图那么简单,而《理解生物信息学》就是为那些想进一步理解生物信息学的好奇者准备的礼物。说起这个礼物,大约是在2017年的某个周末一个加班的下午,在一位同事工位上偶遇的。 可以是说这本书的内容是对我生物信息学背景知识的补充和扩展,特别是对一个半路出家的生物信息学工作者而言。 每一章的每个小节都有一个流程图以帮助读者记忆该小节所涵盖的主题 每一章都配有教科书级别的插图,助于我们理解相关的概念 每一章末都列了一些研究文献和专业著作的参考文献以帮助读者进一步扩展知识、发展技能 字符表和名词解释 《理解生物信息学 这不像《细胞分子生物学》那样讲的全是生物的知识,也不是《R语言数据科学》那样讲的全是编程的技巧,《理解生物信息学》是一本真正意义上的生信书籍。

    79221编辑于 2022-04-08
  • 来自专栏R语言交流中心

    R语言相识生物信息学

    1.NBDC(NationalBioscience Database Center) 链接:https://biosciencedbc.jp/en 简介:本网站主要收集了目前流行的生物信息学专业的数据库 Biostars 链接:https://www.biostars.org/ 介绍:生物信息学相关知识的讨论,问题的回答 网站截图: ? 3. Bioconductor 链接: http://www.bioconductor.org/ 介绍:本网站集中了大量的生物信息学相关的R包,并都附有相关的教程 网站链接: ? 4. OMMIC TOOLS 链接:https://omictools.com/transcriptomics-category 介绍:生物信息学分析以及相关的组学数据库平台集合。 网站截图: ?

    1.5K20发布于 2019-07-31
  • 来自专栏生信小驿站

    Python从零开始第五章生物信息学3):查询目录正文

    通常,方法需要访问在线KEGG数据库,因此需要时间。 例如,上面的命令需要几秒钟。 但是,有些是缓冲的,所以下次调用它时会更快。另一个有用的别名是检索所有通路ID的通道ID。 但是,必须首先指定您感兴趣的生物体。从上面的命令我们知道hsa(人类)是有效的生物体ID,所以让我们设置它然后获取路径列表:

    1.1K40发布于 2018-12-24
  • 来自专栏生信宝典

    43个生物信息学“事实”

    @lh3lh3 (via @torstenseemann) The SRA (short read archive) is the best known of the archives, and not Enter the Dragon (via @froggleston) (现在我们都用BGI系列了) If you stand in front of a mirror and say HiSeq 3

    57010编辑于 2022-01-18
  • 来自专栏生物信息学

    所以你想做生物信息学

    所以你想做生物信息学? 作者:Mario F. Bisconti 翻译:鹿芗泽 翻译时间:2025 年 7 月 28 日 阅读时间:3 分钟 本内容由「新枝」导出 想要进入生物信息学领域,但不确定你的笔记本电脑是否能胜任?你并不孤单。 首先:别慌 如果你是新手,可能会担心是否需要一台装满炫酷灯光、液冷系统的 Linux 主机,配备 64 核处理器和 3TB 内存,才能运行你的第一个比对任务。其实完全不需要。 操作系统对决:Linux VS macOS VS Windows 生物信息学中会用到很多命令行工具,其中一些工具的使用难度较高。 欢迎来到生物信息学的世界! 接下来:我们将讨论 Conda、Docker 和 Mamba,因为安装生物信息学工具不应该像打最终 Boss 那样困难。

    56510编辑于 2025-09-04
  • 来自专栏生信菜鸟团

    生物信息学必备工具—SAMtools

    广泛兼容性:与其他生物信息学工具和流程兼容。 易于集成:可以轻松集成到自动化的生物信息学分析流程中。 强大的数据过滤和查询功能:能够高效地过滤和查询特定的数据。 这些优势使Samtools成为生物信息学领域研究人员广泛使用的关键工具之一。 Dana-Farber癌症研究所数据科学系 官网:https://www.htslib.org/ 旧版本网址:https://samtools.sourceforge.net/ 主要编程语言:C语言 3简要用途 注意需要时绝对路径 make make install 未指定目录安装,非管理员用户会报错 5高频用法 samtools 有39个子命令,但是最常用的功能就是对bam文件排序后构建索引,然后进行后续的生物信息学分析

    3.8K10编辑于 2023-12-14
  • 来自专栏生物信息学

    如何成为顶级生物信息学

    如何成为顶级的生物信息学家?看你的研究。所以Shirley将生物信息学研究(注意,不是生物信息学者本人)的水平划分成五个层次。 相比与0级,这已经有很大的进步,并且是训练生物信息学者最好的途径之一。可以练习将已有的生物信息学技术来做出真正生物学发现的技巧,学习更多的生信技术和生物学知识,为未来进阶到2级和3级打下良好的基础。 3级(Level3):玩数据、作发现。简称:顶级。3级的生信研究一般是整合公共的高通量数据,利用相当精致的方法来做出生物学发现。因此这样的工作一般是从数据开始,实验验证结束。 例如我在《环形RNA分子:论开挂在生命科学研究中的重要性》提到的工作,这是典型的3级研究。从2级进阶到3级很困难,兄弟我目前正在努力中。 X级(LevelX):玩科学、讲政治。简称:神级。 Shirley总结,对于生物信息学者来说,一般从1级的研究开始,学习基本的生信技术;等到计算和生物学知识掌握差不多之后,可以尝试想2级和3级进阶,并且有可能也参与X级的研究。

    1.2K10发布于 2020-04-14
  • 来自专栏深度学习

    生物信息学】基因富集分析enrichment

    2.6.3 3.1 pandas 1.2.3 2.1.1 pyHSICLasso 1.4.2 1.4.2 seaborn 0.12.2 0.13.0 statsmodels 0.13.5 0.14.0 3. 3. david.ncifcrf.gov/ ChatGPT DAVID(Database for Annotation, Visualization, and Integrated Discovery)是一个功能注释和生物信息学分析工具 它通过使用多种生物信息学数据库和资源,如Gene Ontology(GO)数据库、KEGG(Kyoto Encyclopedia of Genes and Genomes)通路数据库、PubMed文献数据库等

    57210编辑于 2024-07-30
  • 来自专栏BioIT爱好者

    顶级生物信息学 RSS 订阅源

    更新频率 6 posts / week 3. 更新频率 3 posts / day 7. 更新频率 3 posts / day 8. 更新频率 3 posts / month 13. 更新频率 3 posts / month 14.

    2K20发布于 2021-10-15
  • 来自专栏深度学习

    生物信息学】层次聚类过程

    2 4 B 3 2 3 C 1 3 D 5 \delta BCDEA1324B323C13D5 聚类过程:   用 \delta(A, B) 表示两个簇 A 和 B 之间的距离,这个距离可以根据不同的标准进行计算 \delta δ C D E AB 3 2 3 C 1 3 D 5 \delta 2 4 B 3 2 3 C 1 3 D 5 \delta BCDEA1324B323C13D5 \delta(CD,E)=\min(\delta(C,E),\delta(D,E))=3 \ δ CD E AB 2 3 CD 3 \delta CDEAB23CD3 再合并ABCD,则 δ \delta δ E ABCD 3 \delta EABCD3

    36710编辑于 2024-07-30
  • 来自专栏生信技能树

    【资源分享】生物信息学编程实战

    市面上唯一适合生物信息学从业者的教学视频 直接复制链接 https://ke.qq.com/course/285055 到浏览器即可打开购买 永不打折,但是会下架,请抓紧机会购买! 01:生信编程很简单 题目 对FASTQ的操作 5,3段截掉几个碱基 序列长度分布统计 FASTQ 转换成 FASTA 统计碱基个数及GC% 对FASTA的操作 取互补序列 取反向序列 DNA to RNA 10 6 3 10 4 >chr_4 9 4 2 7 3 04:hg38每条染色体的基因 找到后点击物种名称前的3个字母缩写链接(下图红色框中的位置)。 (机器无法计算hg19,则使用测试数据,指定坐标是 3号染色体的第6个碱基。)

    4.2K50发布于 2018-06-07
  • 来自专栏生信技能树

    生物信息学软件工具的大致分类

    我这里把生物信息学软件工具按照使用难易程度的大致分成3类: 网页工具(最易上手) 云平台(有门槛,比如需要看视频教程) 编程语言(起码三五个月的学习) 其中网页工具和云平台都不是针对专门的生物信息学工程师设计的 而且Python本身也有不同的划时代的版本,不过起码Python 2 和 Python 3 的基本语法和编程概念是相似的。 然而,由于 Python 2 已于 2020 年停止官方支持,建议新项目使用 Python 3,而已有项目则应考虑迁移。 有一些工具和指南可以帮助进行平滑迁移,例如 2to3 工具,以及官方提供的迁移指南。 src.rpm 63B 10 19 21:06 ncbi-blast-2.15.0+-3.src.rpm.md5 202M 10 19 21:01 ncbi-blast-2.15.0+-3.x86

    1.2K30编辑于 2023-11-21
  • 来自专栏生信菜鸟团

    生物信息学常见文件格式

    43910编辑于 2024-07-10
  • 来自专栏小汪Waud

    生物信息学常见数据格式

    生物信息学里常见的数据格式主要有fasta,fastq,gff/gtf。 1 FASTA FASTA是一种基于文本用于表示核酸序列或蛋白质的氨基酸序列的格式。 SRR2176381.1:Gi号 HWI-ST397:369:C3JLPACXX:测序仪的唯一设备名称 8:lane的编号 1101:tail的坐标 1635:在tail中的X坐标 2086:在tail 第3行: 附加信息行,以“+”开始,一般为空或和第一行相同。 3 GTF和GFF GTF和GFF都是以\t分隔的用于基因注释的文件。 GTF文件和GFF文件可通过软件相互转化。 从0开始,CDS的起始位置,除以3,余数就是这个值,表示到达下一个密码子需要跳过的碱基个数。

    1.5K30编辑于 2023-02-03
  • 来自专栏DrugOne

    Python生物信息学③提取差异基因

    import stats pvalue = []for i in range(0, number_of_genes): ttest = stats.ttest_ind(data2.iloc[i,0:3] , data2.iloc[i,3:6]) pvalue.append(ttest[1]) # Histogram of the p-valuesplt.hist(-np.log(pvalue))plt.title

    1.8K30发布于 2021-01-28
领券