首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信技能树

    百万细胞GSVA如何提速?

    那么,当我们遇到大数据量的时候,如何加速单细胞的GSVA分析呢? 下面以 seurat 官网的 pbm3k 数据为例,进行演示: 首先是加载这个经典的数据: library(gplots) library(ggplot2) library(clusterProfiler install.packages('devtools') # devtools::install_github('satijalab/seurat-data') library(SeuratData) #加载seurat数据 : 做GSVA还需要一个基因,去msigdb上薅一个下来: library(msigdbr) all_gene_sets <- msigdbr(species = "Homo sapiens", category 100的取100个,小于100的为原来的细胞数: 得到为单个细胞水平的打分,单细细胞数已经是降采样后的: 抽样还可以解决的另外一个问题是计算机资源限制,现在的单细胞数据很容易达到几十万甚至上百万细胞数量

    66910编辑于 2025-01-01
  • 来自专栏生信菜鸟团

    软件测评:百万细胞数据的Anndata和Seurat对象互转

    最近终于搞完了博士预答辩,大修后送盲审,祝我好运~ 随着单细胞相关研究成果的井喷式爆发,单细胞领域已进入百万甚至千万细胞量的时代。 本文基于一个百万的单细胞测试数据,对多种互转软件进行测评并总结。希望能够帮助到大家~ 一. = TRUE) }) print(time.R2py) user system elapsed 577.649 32.573 611.104 使用SeuratDisk包进行Seurat转h5ad,百万细胞花了 sceasy.h5ad') }) print(time.R2py) user system elapsed 243.205 22.359 267.202 使用sceasy包进行Seurat转h5ad,百万细胞花了 总结 如果有需要对百万细胞数量的单细胞数据进行Seurat和Anndata/h5ad数据互转,我非常推荐使用R包dior和Python包scDIOR,其优点是运行速度快,数据兼容性强;缺点是依赖包有版本限制

    4.6K10编辑于 2024-03-25
  • 来自专栏生信技能树

    拆分你的百万级别单细胞数据后做降维聚类分群

    heterogeneity and plasticity of cancer- associated fibroblasts in the tumor microenvironment》,这个泛癌单细胞数据挖掘文章纳入了很多不同癌症的单细胞转录组数据做了一个汇总的降维聚类分群 ,如下所示: 纳入了很多不同癌症的单细胞转录组数据 因为纳入的数据有点多,来源于12篇文章:232 single cell transcriptome samples (normal = 31; ,因为作者直接就在 GSE210347 数据给出来了表达量矩阵文件 (GSE210347_counts.Rds.gz ),如下所示: GSE210347_counts.Rds.gz 2.4 Gb ( 151298 Plasma undefined 37638 13588 如下所示,哪怕是拆分了,结果仍然是还不错: 而且绝大部分小伙伴拿到了主要的百万级别单细胞转录组数据 ,其实并不会关心全局情况,应该是会挑选里面的具体的某个单细胞亚群,比如癌症相关成纤维细胞,然后对它继续细致的降维聚类分群后讨论它的临床意义。

    57410编辑于 2024-07-05
  • 来自专栏菜鸟成长学习笔记

    如何快速导出百万 Excel 数据

    之前做数据导出一般都是导出 csv 文件,或者使用 PHPexcel 扩展,导出 Excel 常见的问题就是,数据量大、内存消耗高。今天的这个扩展就很好的解决了这个问题。 基于几组数据做对别: // 使用 xlswrite 扩展 public function xlsExport() { $fileName = time() . '.xlsx'; $config

    2.7K21发布于 2021-01-04
  • 来自专栏机器之心

    资源 | 百万字符:清华大学提出中文自然文本数据CTW

    近日,清华大学与腾讯共同推出了中文自然文本数据(Chinese Text in the Wild,CTW)——一个超大的街景图片中文文本数据,为训练先进的深度学习模型奠定了基础。 目前,该数据包含 32,285 张图像和 1,018,402 个中文字符,规模远超此前的同类数据。研究人员表示,未来还将在此数据之上推出基于业内最先进模型的评测基准。 诸如 Image-Net 数据 [4]、微软 COCO 数据 [13] 和 ADE20K 数据 [33],已成为计算机视觉进步的关键驱动力。 研究人员表示,该数据、源代码和基线算法将全部公开。新的数据将极大促进自然图像中中文文本检测和识别算法的发展。 ? 图 9:数据多样性。

    2.7K40发布于 2018-05-09
  • 来自专栏JAVA 框架/源码学习

    如何快速创建百万测试数据

    场景 进行SQL优化或查询性能测试时,我们需要大量数据测试来模拟,这个时候引出一个问题:数据的创建 如何快速创建大量数据 创建数据无非几种操作下面一一列举; ~ 1 手动输入 (可忽略) ~ 2 使用编写好的存储过程和函数执行 (下面会有介绍) ~ 3 编写代码,通过代码插入数据 (例:使用mybatis的foreach循环插入..步骤多,速度慢) ~ 4 临时数据表方式执行 (强烈推荐,速度快,简单) 准备操作前提 首先 `idx_user_id` (`c_user_id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4; 使用存储过程和内存表 我们先利用函数和存储过程在内存表中生成数据 -> $$ Query OK, 0 rows affected (0.01 sec) 调用存储过程 mysql> CALL add_t_user_memory(1000000); //添加的数据量 INT, PRIMARY KEY (id) ); python: python -c "for i in range(1, 1+1000000): print(i)" > base.txt 导入数据到临时表

    1.6K20发布于 2021-01-14
  • 来自专栏大数据生态

    快速构建Mysql百万测试数据

    说明 本文描述问题及解决方法同样适用于 腾讯云 云数据库 MySQL(TencentDB for MySQL,CDB)。 背景 在进行查询等操作的验证时,我们经常需要在线下环境构建大量的基础数据供我们测试,模拟线上的真实环境。 构建数据 这里我们快速构建一份测试数据,用来模拟实际生产中量级在100万的一张数据表。 创建内存表 利用 MySQL 内存表插入速度快的特点,我们先利用函数和存储过程在内存表中生成数据,然后再从内存表插入普通表中。 创建存储过程 创建插入数据的存储过程 MySQL [dts_demo]> CREATE DEFINER=`root`@`%` PROCEDURE `add_user_memory`(IN n int) min 50.74 sec) 生产100万测试数据用时50秒,还是比较效率的。

    3.2K2317发布于 2021-03-21
  • 来自专栏生信技能树

    如何整合多个单细胞数据

    学员表示他在处理这个数据(GSE152938)的时候,因为数据里面是5个样品,但是只有一个是正常组织的样品,分组是不平衡的,所以需要联合其它数据的正常组织,但是不知道如何在r编程语言里面操作。 数据(GSE152938) 如下所示的数据(GSE152938)文件形式 : 文件形式 对于这个数据(GSE152938),可以使用下面的代码进行批量读取哈: dir='GSE152938_RAW ( dir ) samples 上面的这两个数据走我们给大家的标准代码后各自独立的降维聚类分群,就会有 2-harmony/sce.all_int.rds 文件夹和文件。 然后就可以使用下面的代码,合并两个数据: GSE131685 = readRDS('../2020-GSE131685-3个正常人的肾单细胞/2-harmony/sce.all_int.rds') pwd=a7s1) 所以,理论上使用这个技巧是可以处理无限多个不同来源的单细胞转录组数据啦,而且无需担心大家的文件格式的问题,反正每个数据都自己的内部处理好,然后外部构建成为sceList合并即可。

    70711编辑于 2024-11-21
  • 来自专栏生信菜鸟团

    细胞数据整合示例

    有很多人有或多或少的原因并不会自己做单细胞实验送测序,加上目前单细胞转录组数据上传在公共数据库的数据也有不少了,大家会倾向于从公共数据集中筛选出多个数据来做整合分析。 所以这周推文打算从理论角度,跟大家分享一下多个数据整合分析的代码。 举个例子,如果只关注某一肿瘤组织中的Tcell或Bcell或髓系细胞,选取该种肿瘤样本数据,两到三个数据集合并分析,提取Tcell或Bcell或髓系细胞亚群,那么在分析这种数据的时候就会遇到一个问题。 是在对多个不同数据分别降维分群后再提取各个数据的Tcell或Bcell或髓系细胞亚群整合到一块?」 「2. 还是说在对单细胞数据一开始分析的时候,就定义好分组整合到一块呢?」 这里介绍其中一种方式:三个数据分别降维分群,亚群细分后再进行整合。 篇幅有限,这里以GSE150430数据为例。

    3.3K12编辑于 2023-12-21
  • 来自专栏生信菜鸟团

    都是百万细胞起步了吗

    130万这个数量级的单细胞转录组数据 也就是说,普通人其实并没有这个能力也不需要面临这样的130万这个数量级的单细胞转录组数据的烦恼! 我们拿这个HRA002184数据举例: https://ngdc.cncb.ac.cn/gsa-human/browse/HRA002184 它对应的文章是:《Single-cell analyses implicate ascites in remodeling the ecosystems of primary and metastatic tumors in ovarian cancer》,数据页面就描述的很清楚 那么为什么有人会以为这个研究有130万这个数量级的单细胞转录组数据,因为初学者可能会不太懂单细胞的测序数据结构。 HRX ID:HRX的具体含义在提供的文档中没有明确说明,但根据上下文推测,它可能代表与人类遗传资源相关的某种特定数据或实验的标识符。

    41610编辑于 2024-04-25
  • 来自专栏小徐学爬虫

    用Kotlin获取百万图书数据采集方案

    获取百万图书网站的数据Kotlin作为语言的选择是好的,因为它有协程可以处理并发,相比Java的线程可能更轻量。然后,大家可能需要了解如何发送HTTP请求,解析HTML或者处理API返回的数据百万数据请求很容易被网站检测到,导致IP被封。所以可能需要使用代理池,或者设置请求间隔,模拟人类行为。然后是数据存储的问题。 百万数据存储到数据库,可能需要选择高性能的数据库,比如MySQL、PostgreSQL,或者NoSQL的如MongoDB。同时,写入数据库的时候要考虑批量插入,优化性能,避免逐条插入导致速度慢。 另外,可能需要分布式采集,如果单机处理百万数据可能太慢或者资源不足。不过大家可能刚开始只是单机,所以先考虑单机方案,再扩展到分布式。 以下是使用Kotlin实现百万图书网站数据采集的技术方案,分为六个关键部分并提供详细代码示例:异步网络请求(协程+连接池)// 使用Ktor Client + 协程val client = HttpClient

    30510编辑于 2025-05-08
  • 来自专栏葡萄城控件技术团队

    表格算表高性能原理——怎样实现纯前端百万数据响应

    什么是算表(Table Sheet)? 算表是一个具有网络状行为和电子表格用户界面的快速数据绑定表的视图。 算表的特点正如它的名字的三个字:,算,表: (Data Manager): 的意思就是数据记和管理。算表在前端构建了一个叫做Data Manager的数据管理模块。 Calculation Engine定义不同的上下文计算层级,不同与SpreadJS中工作表(Work Sheet)基于单元格或者区域(Range)的计算层级,算表(Table Sheet)的上下文层级是基于行 ,组数据。 这样可以做到通过算表对数据进行展示,同时通过工作表的功能,对展示的结果进行数据分析。 甚至可以直接引用算表中的数据当做数据数据源,创建数据透视表。

    1.5K20编辑于 2023-01-10
  • 来自专栏生信菜鸟团

    你的单细胞数据还可以分析体细胞突变

    Chromium 技术生成的 scRNA-seq 数据,并匹配了来自八个皮肤鳞状细胞癌 (cSCC) 和匹配的相邻正常皮肤样本的全外显子组测序 (WES) 数据 其他数据: 使用来自 622 个已发表的 scRNAs-seq 数据和来自 66 个 scATAC-seq 数据,共计 2,655,775 个非肿瘤细胞和癌细胞细胞数据处理: 【1】scRNAseq 的 fastq 数据,先使用 Cellranger 比对到 GRCh38,然后基于数据细胞类型注释信息,将比对得到的 bam 文件,对于的 reads 提取出来作为子bam,没有注释信息的 reads 或细胞就被丢弃。 结果显示SComatic 在三个数据上的灵敏度为 0.33–0.56,高于 SAMtools 对两个数据的灵敏度,并且均高于 Monovar 的灵敏度,但Strelka2、VarScan2 和 SCReadCounts SComatic 在 ATAC-seq 数据的性能:该数据来自24个非肿瘤组织的66个样本的459,056个细胞,SComatic 共检测到 389 个体细胞 SNV。

    88010编辑于 2024-07-31
  • 来自专栏IT测试前沿

    使用Mysql存储过程造百万测试数据

    1.首先我们先创建一张表 创建一张表以存放测试数据,该表包含四个字段:唯一自增量的主键id、姓名name、手机号mobile、身份证号idcode。 2.第一步先写简单的增加一条数据的存储过程 DROP PROCEDURE IF EXISTS proInsert; Create procedure proInsert() Begin Insert into 5.增加1000条后的数据。 编辑while i<=1000 do,则增加1000条测试数据。修改为10000则增加10000条数据。 ? end j) 声明变量: declare变量名 类型(长度) default默认值; k) 给变量赋值: set 变量名=值; 以上就是简单的一个造测试数据的存储过程方法 ,其实造测试数据的方法挺多的,比如使用excel的增量+ultraedit的列编辑造数据,使用Jmeter的random函数造数据等等,抛砖引玉,以期大家学会更多的方法。

    2.5K20发布于 2020-10-23
  • 来自专栏葡萄城控件技术团队

    用FlexGrid做开发,轻松处理百万表格数据

    表格数据处理是我们项目开发中经常会遇到的设计需求之一,所需处理的数据量也较大,通常是万、甚至百万。此时,完全依赖平台自带的表格工具,往往无法加载如此大的数据量,或者加载得很慢影响程序执行。 核心优势: 快速:加载和滚动速度比竞争对手快10倍以上 灵活:可以获得丰富的功能,而不膨胀核心控件 灵活的数据绑定 支持多种格式的导入导出 灵活的数据展示 详尽的演示代码 体积小:程序从113KB 一、卓越的性能表现 -- 百万数据立即呈现,无需等待 FlexGrid 提供完备的表格控件数据处理能力,无论是绑定数据源、非绑定模式还是树形业务数据模式,您都可以体验到卓越性能带来的优质体验。 三、挖掘数据隐藏下的趋势 -- 过滤、排序、分组、汇总直到打印和导出 大数据时代的问题已经不是数据信息不足,而是如何从数据中挖掘出未来的趋势和机会。 四、按照业务关系展现数据 -- 子报表、级联样式和数据数 面对层级关系复杂的业务数据,传统的表格是无法满足需求的。FlexGrid 提供子报表、级联样式以及数据树,能解决此类问题。

    3.2K80发布于 2018-01-10
  • 来自专栏葡萄城控件技术团队

    表格算表高性能原理:揭秘纯前端百万数据响应的魔法

    什么是算表(Table Sheet)? 算表是一个具有网络状行为和电子表格用户界面的快速数据绑定表的视图。 算表的特点正如它的名字的三个字:,算,表: (Data Manager): 的意思就是数据记和管理。算表在前端构建了一个叫做Data Manager的数据管理模块。 Calculation Engine定义不同的上下文计算层级,不同与SpreadJS中工作表(Work Sheet)基于单元格或者区域(Range)的计算层级,算表(Table Sheet)的上下文层级是基于行 ,组数据。 这样可以做到通过算表对数据进行展示,同时通过工作表的功能,对展示的结果进行数据分析。 甚至可以直接引用算表中的数据当做数据数据源,创建数据透视表。

    33710编辑于 2024-07-18
  • 来自专栏智能生信

    对比学习实现对百万规模的多模态单细胞图谱的快速映射

    Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale 论文摘要 单细胞数据的规模不断扩大 最近,基于深度学习的方法通过推导非线性细胞嵌入来解决这些问题。作者提出了细胞表征的对比学习--Concerto,它利用一个自我监督的蒸馏框架来模拟多模态单细胞图谱。 通过区分每个细胞,Concerto可以适应各种下游任务(自动细胞类型分类、数据整合,reference mapping)。 Concerto可以灵活地推广到多组学获得统一的细胞表示。在模拟和真实的数据上进行基准测试,Concerto大大超过了其他竞争的方法。 Concerto很容易并行化,并且可以有效地扩展,在1.5小时内建立一个1000万个细胞的参考,并在8秒内查询1万个细胞

    42410编辑于 2022-12-29
  • 来自专栏单细胞天地

    胃癌单细胞数据GSE163558复现(三):细胞分群注释

    今天是胃癌单细胞数据GSE163558复现系列第三期。第二期我们走了Seurat V5标准流程,利用harmony整合去批次后,按标准流程进行了降维聚类分群。 本期,我们将在第二期基础上选择合适的分辨率,对细胞亚群进行注释。 1背景介绍 Bulk转录组的诞生,使我们能够快速的获取组织和细胞大量的RNA-seq数据。 相较于传统的RNA检测方法(pcr),这种高通量测序手段更高效,数据维度更高,数据量更大。但是,组织中包含有各种不同类型的细胞,如肿瘤组织中除了肿瘤细胞,还有正常上皮细胞、免疫细胞、成纤维细胞等等。 Bulk转录组(组织)的最大缺陷在于我们获取到的RNA-seq数据反映的是不同类型细胞平均的RNA水平,因此掩盖了部分细胞表达特征。 单细胞转录组测序(scRNA-seq)则很好的弥补了这一缺陷,它在单个细胞水平上构建每个细胞的基因表达谱。 在第二期,我们最终获取到了45548个细胞的RNA-seq数据

    2.4K21编辑于 2024-06-25
  • 来自专栏生信菜鸟团

    SATURN:跨物种的单细胞数据整合

    datasets across species with SATURN 刊登日期:16 February 2024 发表杂志:nature methods IF:32.1 跨物种整合的主要挑战在于不同数据包含不同的基因 输入与宏基因初始化 首先,模型的输入是: 多个物种的 scRNA-seq 原始 count 数据,每个数据都需要带有细胞类型标签(本身自带的或者可以通过聚类获得); 蛋白质序列信息:每个基因对应的氨基酸序列 重构损失用于衡量解码器重建原始基因表达数据的能力,采用零膨胀负二项分布的负对数似然作为损失函数。 限制 需要物种有高质量的参考蛋白质组数据,对于许多非模式生物而言,这种参考数据可能不存在或者不完整,整合就会受到限制; SATURN 的微调阶段严重依赖每个数据内部预先提供的细胞类型标签,这些标签的质量将直接影响跨物种细胞类型对齐的效果 蛋白嵌入向量的生成 使用 SATURN 进行跨物种整合之前首先需要利用 ESM2 模型将各个物种的蛋白质序列信息转换为蛋白嵌入向量,这里我整合的数据是人和小鼠的。

    37610编辑于 2025-11-19
  • 来自专栏IT技术精选文摘

    EMQ百万MQTT消息服务

    在正常业务使用下对于客户端的行为可以使用ACL进行限制,比如A客户端只能订阅 /A/get 队列消息和向 /A/set 发布内容 但是在MYSQL里面处理这样的鉴权就需要写入两条记录,如果设备量有一百万数据库就要承担两百万条鉴权数据量会大大影响数据库的性能 当它从客户端接收到重复的数据,服务器重新发送消息给订阅者,并且发送另一个PUBACK消息。

    2.7K40发布于 2018-06-22
领券