首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏科技记者

    InSilicoSeq——微生物数据测序模拟工具

    小伙伴们大家好,我是小编豆豆,最近小编在开发宏基因组流程,很多公司和小伙伴在开发流程时候,都会花大量的时间研究脚本或者软件的参数,很少有小伙伴们开发完流程或者软件会使用模拟数据来对其检验运行出来的结果是否正确 对于环境微生物(宏基因组或扩增子)来说,除了使用ZymoBIOMICS[1]微生物标准品测序数据和一些已经发表的公共数据来验证,还可以在NCBI下载基因组完成图、草图、16s rRNA等序列,使用软件将基因组打断 ,模拟测序数据来进行流程验证。 今天小编将结合自己前段时间的项目,给小伙伴们分享一个使用基因组数据生成测序数据的小工具——InSilicoSeq[2-3],该工具能够模拟宏基因和扩增子的测序数据2)generate子命令:根据提供的fasta序列,生成扩增子和宏基因组测序数据 usage: iss generate [-h] [--quiet | --debug] [--seed <int

    50210编辑于 2024-11-23
  • 来自专栏BioIT爱好者

    测序数据学习笔记:bcl2fastq 安装

    相比二进制的 bcl2fastq2,基于 Perl 语言的 bcl2fastq-1.8.4 或许是从源码层面学习了解 Illumina 测序数据处理一个不错的选择。 libxml2-devel bzip2 bzip2-devel bzip2-devel-zlib zlib zlib-devel bcl2fastq has been primarily developed qt5-qtbase qt5-qtbase-devel qt5-qtsvg qt5-qtsvg-devel 安装成功 后话 RTA(Real Time Analysis),是指 Illumina 测序在边合成边测序化学过程中 RTA 以单个读取碱基(base call,或称 BCL)文件的形式存储碱基检出数据测序完成后,必须将 BCL 文件中的测定的碱基转换为序列数据。此过程称为 BCL 到 FASTQ 的转换。 如果你的 RTA 版本大于 1.18.54,可以考虑安装 bcl2fastq2,我在这里安装了 bcl2fastq v1.8.4 主要是想从源码层面对 Illumina 测序数据的转化作进一步了解学习。

    2.4K30发布于 2021-10-15
  • 来自专栏单细胞测序

    单细胞测序2次分群

    单细胞测序2次分群 Seurat里的FindClusters函数设置的resolution数值越大,分群的数量就越多,但是当单细胞数量太多的时候,会遇到resolution再变大,分群的数量也不再增加的情况 这里的示例数据seu.obj.Rdata是GSE218208降维聚类分群的结果,参照单细胞测序—GSE218208(流程简化) rm(list = ls()) library(Seurat) library (dplyr) load("../2.GSE218208/seu.obj.Rdata") p1 = DimPlot(seu.obj, reduction = "umap",label=T)+NoLegend = DimPlot(seu.obj,label = T)+NoLegend() p1+p2 对比二次分群前的结果,可以看到DC被进一步划分为M1,M0两群。 注: sub.cells@meta.data$celltype sub.cells@meta.data$celltype:在 sub.cells 的元数据中创建一个新列 celltype,用于存储每个细胞的细胞类型信息

    61211编辑于 2024-07-31
  • 来自专栏HUBU生信

    tophat2+cufflinks转录组测序实例(2)——原始数据的处理

    [tophat2+cufflinks转录组测序实例——原始数据的获取] (http://www.biocoder.cn/content/62/) 我们在NCBI上获取的数据 要想把下载的原始数据以sra 格式结尾的文件给tophat2识别并进行比对,就要将sra格式解压为fastq格式 SRA toolkit 代码如下 fastq-dump --split-files SRR5399538.sra 将 4个sra文件分别解压为fastq文件 2.利用bowtie2建立参考基因组的索引 代码如下 bowtie2-build GCA_000009725.1_ASM972v_genomic.fna GCA_

    1.1K20发布于 2018-12-27
  • 来自专栏生信喵实验柴

    测序数据比对

    一、测序数据比对 高通量测序数据分析一共有测序数据分析主要有两条路径:一条是进行基因组拼接,得到基因组序列;另一条则是不经过拼接,直接与参考序列进行比对。 因此,测序数据比对是高通量测序分析中最核心的操作。 二、数据比对的意义 测序数据比对到参考序列上,得到一种“堆叠”的效果。这种效果是将测序数据比对到参考序列上。 例如两个同样长度的基因 A 和 B,在相同测序深度情况下 ,A 基因测序深度为 100X,B 基因测序深度为 50X,则二者基因表达量差异为 2 倍。相比于 B 基因组,A 基因为高表达。 二代高通量测序具有以下特点: 1.测序覆盖全基因组 2.测序数据读长短 3.测序数据具有一定的错误率 4.测序数据深度高 5.测序数据具有 bwa-mem2 官网:https://github.com/bwa-mem2/bwa-mem2 3.3 比对结果 pairend 比对 综合考虑两条 reads 与参考序列的比对以及比对错误率情况

    2.7K21编辑于 2022-10-25
  • 来自专栏Linux基础入门

    wtdbg2 | 三代测序数据组装软件①

    wtdbg2软件介绍 wtdbg2能利用Pacbio或Nanopore测序数据进行基因组组装。 wtdbg2相比于Canu等软件,其运行速度可能快了10倍左右。软件在基因组组装前没有对long reads进行校正,在组装后能利用三代和二代测序数据对基因组序列进行校正。 ;②将软件添加到bashrc时,需要根据自己软件的安装位置进行添加;添加完成后需要source刷新一下 wtdbg2示例数据下载 #pacbio示例数据下载 wget \ -O pacbio.sra \ \ https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR8494939/SRR8494939 wtdbg2示例数据处理(sra转fastq) #pacbio -g : 设置基因组大小,可以带有k/m/g等单位; -X :从输入的测序数据中选择最长的测序深度达到此设定值的reads数据用于基因组组装,默认值50.0; -L :过滤掉长度低于此值的reads数据

    1.8K30编辑于 2022-08-18
  • 来自专栏生信情报站

    NCBI 上传测序数据

    2、进入SRA 网址:https://submit.ncbi.nlm.nih.gov/ 向下滚动,找到Sequence Read Archive (SRA)工具,点击Submit ? 2、新建提交 ? 3、按要求填写信息 ? 7、检测上传数据是否正确 ? 也就是我们常用的基因表达数据,这里可以上传处理后的数据,如count和TPM,FPKM等 BioProject & BioSample:这是NCBI的核心组织架构,一篇文章就是一个BioProject,

    1.9K40发布于 2021-04-16
  • 来自专栏Initial programming

    初识算法 · 模拟2

    前言: ​本文的主题是模拟,通过两道题目讲解,一道是Z字形变化,一道是数青蛙。 链接分别为: 1419. 数青蛙 - 力扣(LeetCode) 6. 算法原理 因为是一道典型的模拟题目,所以我们只需要模拟一下这个过程就可以了: 解法一的话,直接就老老实实的模拟呗,不过这种方法的时间复杂度和空间复杂度都是比较高的,就拿创建的矩阵来说,我们都不知道矩阵的长究竟有多长 就像是这样,转换成了下标之后,我们找规律就可以了,从第一行开始,发现是从0到6,也就是公差为6,此时的n是2,那么公差d是等于2 * n - 2的,其他n的取值也是这种情况,这里就不验证了。 * numRows - 2; // 处理第一行 for (int i = 0; i < s.size(); i += d) ret += s[i] 算法原理 对于这道题目来说,是不是和提莫攻击这道题目有点类似,因为都是模拟一个序列,提莫攻击模拟的是提莫的攻击,对于这道题目来说模拟的是青蛙的蛙鸣行为。

    21300编辑于 2024-11-19
  • 来自专栏信息学

    算法专题(2)-模拟

    摘要 本次系列文章主要介绍信息学以下知识点: 11.png 今天我们主要学习 模拟 这部分内容: 二、 模拟 概述: 模拟题在NOIP中十分常见,一般属于简单题,需要拿满分。 模拟题需要理解题意,按照题目要求的直接进行模拟过程,或者按照题目要求模拟一些数据结构。模拟题最关键的是理解题意与细心。 调试时,需要根据题目中的条件构造数据测试。 2.重难点分析: u 题意理解非常重要,必须考虑题目中的所有条件。 u 做题时要细心,并构造数据仔细测试,简单题必须拿满分。 3.  下图显示了一个三张地毯的铺地毯方式,其中实线为1号地毯,虚线为2号地毯,双实线为3号地毯,红点为所求点。 【分析】本题为简单模拟题,只要从前往后扫描所有地毯,模拟盖地毯的过程。 【样例输入】 1 2 1 abcs-w1234-9s-4zz 【样例输出】 abcsttuuvvw1234556677889s-4zz 【分析】本题为模拟题,应全面分析题目中的五个条件。

    59720发布于 2019-12-03
  • 来自专栏R语言&linux

    转录组测序分析——差异表达分析2

    1.功能注释2.功能富集rm(list = ls())options(stringsAsFactors = F)library(clusterProfiler)library(org.Hs.eg.db) library(GSEABase)library(ggplot2)library(tidyverse)## Error in download.KEGG.Path(species)# https://github.com ="normal",2]DEG <- as.character(na.omit(DEG))head(DEG)## ===GO数据库, 输出所有结果,后续可根据pvalue挑选结果ego_CC <- enrichGO <- dotplot(ekegg, showCategory=10,label_format=100)plotc = p1/p2plotcggsave('result/6.enrichKEGG.png' width = 8, height = 10)ekegg <- data.frame(ekegg)write.csv(ekegg,'result/6.enrichKEGG.csv')## === 其他数据库通路

    51210编辑于 2023-11-03
  • 来自专栏HUBU生信

    tophat2+cufflinks转录组测序实例(1)——原始数据的获取

    tophat2+cufflinks转录组测序实例将为你介绍转录组测序也就是最近热门的RNAseq整个流程,有兴趣的小伙伴可以点个关注,一起讨论学习! 人的基因组一共有两万多个基因,但这些基因并不是每时每刻都在表达,在不同时间不同组织中,基因的表达是不同的,而检测这些基因表达的有效方法就是RNAseq,它结合了下一代测序技术来对整个细胞的mRNA进行测序 然后比较几种细胞的转录本并且合并,最后衡量差异和可变剪切和其他的分析 在现实生活中,待比对的mRNA序列都是通过实验得到的,由于这只是一个例子,主要用于讲解RNAseq流程,所以我们先从NCBI上获取本次实例的原始数据以及参考基因组 从NCBI上下载数据可以用Aspera 使用教程可参考 http://www.biocoder.cn/content/50/ 如图所示,我从NCBI上下载了4个实验的原始数据以及参考基因组 其中以sra 为后缀名的为原始数据文件,gtf为后缀名的为参考基因组的注释文件 ?

    1.3K10发布于 2018-12-27
  • 来自专栏生信喵实验柴

    熟悉测序数据的下载

    背景 做生物信息的过程中,除了可以分析自己研究的测序数据,也可以分析公开的测序数据。目前已经累积了大量的测序数据可供下载分析。 目前测序数据主要发表在 NCBI,EBI,CNDB,DDBJ 等几大站点。 一、SRA 数据库简介 SRA(Sequence Read Archive)数据库是 NCBI 用于存储测序的原始数据数据库,包括 454,Illumina,SOLiD,IonTorren 3.1 数据介绍 下载测序数据只要获得该数据在 SRA 数据库中对应的 SRA 号即可,一般会在文章中的 Data 部分。 BioProject Accession PRJNA422511 (https://www.ncbi.nlm.nih.gov/bioproject/PRJNA422511). 2.

    1.1K20编辑于 2021-12-21
  • 来自专栏代码小菜鸟

    测序数据质量控制

    -phred33或 -phred64 : 指定输入数据的质量编码方式。如果不指定,软件也会自动判断文件格式。phred33/64都是测序数据质量编码方式,用于描述测序数据中每个碱基的质量值。 illumina测序时,碱基结合产生的荧光数据被捕捉并绘制成荧光曲线。从荧光数据中可以识别碱基类别,但现实中波峰的形态可能发生模糊,并可能导致数据的失真。 2 <m2>:指定成对测序数据的路径,<m1>和<m2>分别表示两个文件的路径。 -U <r>:指定未成对(单端)测序数据的路径,<r>表示文件的路径。 --interleaved :指定合并成对测序数据的路径,表示文件的路径。 BAM文件的读写速度较快,适合处理大规模数据。 好了,测序数据质量控制就写到这里,下次更新物种注释部分。

    75620编辑于 2023-07-19
  • 来自专栏石开之旅

    Python数据可视化(2)--使用Pygal模拟掷骰子

    这一次我就用Python模拟掷骰子,用Pygal使之可视化。 二、程序实现 为了模拟骰子。首先我们新建骰子定义文件 die.py。 from die import Die import pygal # 创建一个D6 die_1 = Die() die_2 = Die() die_3 = Die() # 掷几次骰子,并将结果存储在一个列表中 results = [] for roll_num in range(1000): result = die_1.roll() + die_2.roll() + die_3.roll() results.append(result) # 分析结果 frequencies = [] max_result = die_1.num_sides + die_2.num_sides +die_3 三、结果 这是模拟掷骰子1000次的结果,赌场的赔率也是按这个设置的,但赌场里还有其他组合,比如点数相等等,你可以修改程序去模拟,下一个赌神就是你啦!

    1.4K20发布于 2019-01-11
  • 来自专栏Linux基础入门

    Pilon | 利用二代测序数据优化三代测序数据组装结果

    前言 三代测序错误率比较高,一般组装后需要进行纠错来提高准确度。本次介绍使用Pilon通过引入二代测序数据来对三代基因组进行纠错,此外Pilon还支持对二代测序数据拼接结果进行纠错。 fastq.gz Pilon常用参数 # 输入参数 --genome : 输入基因组序列文件,即需要纠错的文件; --frags : 输入Illumina小片段文库(FR方向)测序数据比对到参考基因上的 该BAM文件是需要按coordinate排序,且具有.bai索引; --jumps : 输入Illumina大片段文库(RF方向)测序数据比对到参考基因上的BAM文件路径。 该BAM文件是需要按coordinate排序,且具有.bai索引; --unpaired : 输入Illumina单端测序数据比对到参考基因上的BAM文件路径。 该BAM文件是需要按coordinate排序,且具有.bai索引; --bam : 输入未知类型的Illumina测序数据比对到参考基因上的BAM文件路径。

    3.7K20编辑于 2022-08-18
  • 来自专栏生物信息学、python、R、linux

    cellranger分析单细胞测序数据

    一般从公司拿到单细胞测序原始数据是这样的: ? image.png 因此第一步就需要把这些数据按照I1 R1 R2 用zcat追加起来 for i in `ls rawdata/Day1/*gz|cut -d '/' -f3 | cut -d '_' -f 1,2,3 |sort |uniq`; do zcat rawdata/Day1/${i}_I1_001.fastq.gz >> mergedata/Day1/Day1_S1_ Day1/${i}_R1_001.fastq.gz >> mergedata/Day1/Day1_S1_L001_R1_001.fastq zcat rawdata/Day1/${i}_R2_ 001.fastq.gz >> mergedata/Day1/Day1_S1_L001_R2_001.fastq done cellranger的数据输入为存储数据的文件夹,如: ?

    1.6K30发布于 2020-04-01
  • 来自专栏生信技能树

    抢救你破碎的测序数据

    _3_2.fq.gz 肉眼看起来没有啥问题,因为对方本来就是测序数据文件破损了,所以也无所谓md5校验了,本来是想把它们全部先解压再说,马上就报错: ls *gz |xargs gunzip _1.fq.gz 547M 5月 27 21:14 2.clean_fq/WT_3_2_val_2.fq.gz 可以看到,同样的测序数据,同一个样品过滤前后,其实变化并不大,主要是因为测序已经是比较稳定的技术啦 sort 73.3% 6.1M WT_3.sort 68.4% 5.9M 因为每个样品都是 7.5M的测序reads,所以最后的定量也是在6M附近,它虽然达不到20M的转录组测序的推荐数据量,但是做差异分析理论上也足够啦 ,如果是标准的20M的转录组测序的推荐数据量,火山图里面通常是有2~3万个基因,甚至加大测序量还可以探索编码和非编码。 不过现在我们就抢救到了少量数据,仅仅是能大致保证差异分析是问题不大。 但是,这个抢救你破碎的测序数据过程其实需要两个前提: 首先你破碎的不能太严重 其次破碎的发生是随机的,但是不破坏reads顺序

    61510编辑于 2022-06-27
  • 国内高速下载测序SRA数据

    欢迎大家关注全网生信学习者系列:WX公zhong号:生信学习者Xiao hong书:生信学习者知hu:生信学习者CDSN:生信学习者2介绍在生物信息学研究中,公共测序数据资源的获取对于科研项目的进展至关重要 虽然NCBI的SRA(Sequence Read Archive)数据库提供了大量的测序数据,但由于网络访问速度的限制,特别是从国内访问时,下载速度可能受到严重影响。 EBI的ENA数据库与NCBI的SRA数据库类似,存储了大量的测序数据,并且提供了多种下载方式。其中,enaBrowserTools结合Aspera的方式因其高效和便捷性而受到推荐。 这种下载方式不仅速度快,而且操作简单,只需提供数据的accession号(如SRR号)即可。 -f 指定数据类型;2. -d 指定本地下载目录;3.

    80700编辑于 2024-06-12
  • 来自专栏生信宝典

    NGS基础:测序原始数据下载

    生物或医学中涉及高通量测序的论文,一般会将原始测序数据上传到公开的数据库,上传方式见测序文章数据上传找哪里;并在文章末尾标明数据存储位置和登录号,如 The data from this study was NCBI的SRA (Sequence Read Archive) 数据库(http://www.ncbi.nlm.nih.gov/sra/) 是最常用的存储测序数据数据库。 在如此多的Runs中,假设我们想获取其中两个病人的化疗前和化疗后的外显子组测序数据,观察其化疗前后究竟有哪些基因突变以及突变的频率怎么样。 1-2天。 数据下载完会在~/ncbi下面存在缓存的sra文件,记得定时清空。 按照上述步骤下载完毕后可看到很多个fastq.gz格式测序文件。

    1.8K21发布于 2018-08-01
  • 来自专栏三代测序-说

    三代测序 - 数据质控 | Bamboo

    作为一款纳米孔测序仪,现阶段测序所得的碱基质量会普遍偏低,根据官网性能参数的介绍,两款纳米孔测序仪的单次碱基准确率在97%左右,也就是Q15。因此,对下机数据进行质量查看和质控是数据分析前重要的一步。 对于三代纳米孔测序平台,查看数据统计信息和质量最常用的就针对牛津纳米孔(ONT)数据开发的Nanopack分析套装,如NanoPlot,NanoComp和NanoQC,以及老牌质控软件fastp针对三代长度长数据优化的 作为国产纳米孔测序仪,后续数据分析最理想的工具软件,是针对自家数据开发的算法,但是这需要时间和科研圈的集体贡献。 一、软件介绍Bamboo 是由华大序风开发的一款针对长读长测序数据的质量控制工具,支持无参(reference-free, or pre-alignment)或有参(reference-based, or 此分析用以帮助用户评估测序数据的准确性。

    94212编辑于 2025-05-21
领券