什么是样本不均衡? 样本不均衡:在准备训练样本的时候,各类别样本比例不等,有的差距可能比较小,有的差距则会比较大,以CIFAR-10为例: CIFAR-10是一个简单的图像分类数据集。 如下图:Dist. 1:类别平衡,每一类都占用10%的数据。Dist. 2、Dist. 3:一部分类别的数据比另一部分多。Dist. 4、Dist 5:只有一类数据比较多。 Dist. 10、Dist. 11:交通工具对应的类别中的样本数都比动物的多。 2. 为什么要解决样本不均衡? 训练网络使用的是CIFAR-10的结构,下面是测试结果:可以看出总的准确率表现不错的几组1,2,6,7,10,11都是大部分类别平衡,一两类差别较大;而表现很差的,像5,9可以说是训练失败了,他们的不平衡性也比前面的要强 机器学习-9:MachineLN之数据归一化 10. 机器学习-10:MachineLN之样本不均衡 11. 机器学习-11:MachineLN之过拟合 12.
全部链接是: 「生信技能树」单细胞进阶数据处理之文献导读,链接是:https://www.bilibili.com/video/BV17f4y1R7N8 「生信技能树」使用10X单细胞转录组数据探索免疫治疗 这里做一个统一的代码更新 复制粘贴就可以使用的代码哦,单个10x样本的seurat标准代码如下: ### --------------- ### ### Create: Jianming Zeng ## ## ### --------------- rm(list=ls()) options(stringsAsFactors = F) library(Seurat) pro='S1' # 搞清楚你的10x 单细胞项目的cellranger输出文件夹哦 hp_sce <- CreateSeuratObject(Read10X('scRNAseq_10_s1/filtered_feature_bc_matrix <- sce.markers %>% group_by(cluster) %>% top_n(10, avg_logFC) DoHeatmap(sce,top10$gene,size=3) ggsave
本教程就是跟大家一起去挖掘二代测序结果的数据,从你什么也不会开始,到最后得到Figure。其实关键节点在于怎样获取二代测序的数据,得到了数据框结合其他平台的挖掘教程,为大家发高效发文章加油!
5000个含有数亿个寡核苷酸的数据点,用于捕获mRNA 灵敏度高 简单的仅需1天的组织和文库制备工作流程 根据不同组织类型,每个数据点平均捕获1至10个细胞 在新鲜冷冻组织样本上进行过验证 包含所有载玻片和试剂 无需仪器 overview 组织样本准备 成像 测序 数据分析 ---- 参考 Envision New Dimensions: Getting Started with the Visium Spatial Gene Expression Solution(https://pages.10xgenomics.com /wbr-2019-10-29-event-ra_g-apac-visium-launch-getting-started-watch-on-demand.html? userresearcharea=ra_g&userregion=apac&userrecipient=customer&mktouserid=1101634&cid=&usercampaignid=) https://www.10xgenomics.com
还是那句话,做项目,钱多钱少大家没办法决定,但是大家能决定的是,机遇(样本)来临,能抓住(能分析好),就可以了。 好了,我们,我们要开始更新我们的分析流程了,我们以10X的官方示例数据为例,python分析单样本的HD数据,多样本整合我们放到下一篇。 array_row', 'array_col' var: 'gene_ids', 'feature_types', 'genome' uns: 'spatial' obsm: 'spatial'单样本 sc.pl.spatial(adata, img_key="hires", color="clusters")跑的过程如果服务器性能好的话是没有什么问题的,如果查一点,可能会断掉,不过比R版本已经好很多了,作为项目,单样本的基础分析到聚类就可以了 接下来我们会分享一些python的多样本HD数据整合和结合图像识别的内容。生活很好,有你更好
作者首先讲正确分类的样本集合记做 ? ,误分类的样本集合记做 ? 。统一使用对抗训练进行防御,分别只对 ? 和 ? 进行扰动,以及两者均进行扰动,比较这三者的对抗鲁棒性。 这里的扰动,指的就是生成对应的对抗样本加入到训练集合中 对抗鲁棒性指的是,在对抗样本作为输入时,模型的精度 ? 首先作者改变了扰动的方法,将PGD切换成FGSM,分别单独作用于两个样本集合中,从最终的结果上看,仍然是对误分类样本扰动对鲁棒性的提升比较明显,如下图所示: ? (反之,如果模型对于对抗样本和正常样本的输出分布类似,鲁棒性越高?) 然后我们看蓝色虚线(BCE[以扰动样本作为输入]+KL散度)和绿色线(BCE[以普通样本作为输入]+KL散度),说明基础的精度那一项的输入还是扰动样本要优。 KL项的系数 ?
5000个含有数亿个寡核苷酸的数据点,用于捕获mRNA 灵敏度高 简单的仅需1天的组织和文库制备工作流程 根据不同组织类型,每个数据点平均捕获1至10个细胞 在新鲜冷冻组织样本上进行过验证 包含所有载玻片和试剂 组织样本准备 ? ? ? ? ? ? ? ? ? ? ? 成像 ? ? ? ? 测序 ? ? ? ? ? 数据分析 ? ? ? ? ? ? ? ? ? ? ? ? ? Envision New Dimensions: Getting Started with the Visium Spatial Gene Expression Solution(https://pages.10xgenomics.com /wbr-2019-10-29-event-ra_g-apac-visium-launch-getting-started-watch-on-demand.html? userresearcharea=ra_g&userregion=apac&userrecipient=customer&mktouserid=1101634&cid=&usercampaignid=) https://www.10xgenomics.com
前面我在单细胞天地分别介绍了如果因为种种原因仅仅是测了一个样本的10X单细胞,或者走经典的2个样本的10X样本该如何分析,并且辅助自己的生物学故事,如下: 我的课题只有一个10x样本肿么办? 两个样品的10x单细胞转录组数据分析策略 其中,我委婉的指出来了,那个文章对两个两个样本的10X单细胞转录组数据的整合是有问题的,不过他们文章发表期刊是 Immunity影响因子很高,二十多分,其实单细胞对他的生物学故事来说是锦上添花 个样本。 其它单细胞样本整合理论详细见:多个单细胞转录组样本的数据整合之CCA-Seurat包 细胞分群 样本整合好了之后的实际分析流程还是5个R包,分别是: scater,monocle,Seurat,scran 这个其实是 两个样品的10x单细胞转录组数据分析策略 所展现的,只不过是那篇文章既没有提到如何整合2个10X单细胞转录组样品,也没有对细胞亚群进行生物学注释,总体来说,显得太苍白。
而·少样本学习的思想是通过比较数据来学习区分类,这样模型使用的数据更少,并且比经典模型表现得更好。在少样本学习中通常会使用支持集(support set)代替训练集。 少样本学习是一种元学习技术。 K-Way N-Shot支持集:支持集具有K类,每个类都有N样本。N-Shot意味着为每个类提供的样本数。如果每个另类都有更多样本,模型可以学习的更好。 孪生网络 孪生网络使用正面和负样本进行分类。 通过比较这样就得到了我们的预测分类 单样本学习 one-shot learning是少样本学习的一种特殊情况,即从一个样本学习并再次识别物体。 从监督到零样本的模式识别 我们以前在经典的分类模型中的做法是这样的: 但当出现新的类别时,该怎么做呢?关键是零样本学习。零样本学习的主要思想是将类别嵌入为向量。
前面我们介绍过,如果只有两个10x单细胞转录组样本的数据, 该如何分析,见:两个样品的10x单细胞转录组数据分析策略 ,实际上这个分析策略的文章里面并不是把单细胞转录组数据当做是重点,分析也是很草率,之所以加上单细胞转录组数据 什么情况下,我们会用尽全身力气来分析我们的10x单细胞转录组样本的数据呢,最有可能的场合是,我们只有一个样本,有可能是样本本身非常稀有,又或者我们的经费确实有限,那我们就来看一下具体一点的例子吧。 ) step5: 判断重要的基因 step6: 多种降维算法 step7: 可视化降维结果 step8: 多种聚类算法 step9: 聚类后找每个细胞亚群的标志基因 step10: 继续分类 数据质控 仅仅是一个样本的10x单细胞转录组测序,经过质控,剩下2824个细胞,如图: ? 拟时序分析 其实让我很意外的,因为前面的分析,作者只需要走10X数据标准cellranger流程,然后走seurat流程,我们在单细胞天地多次分享过流程笔记,如下: 单细胞实战(一)数据下载 单细胞实战
这个数字使得月球的地质活跃期延长了10亿年左右,填补了现阶段月岩样本年龄的空白期。 那么,这个结果到底是怎么得出的,科学家们还从月壤中得到了哪些新发现? 月球年轻了10亿岁 其实,这次嫦娥5号这次的任务之一,就是寻找月球上最年轻的火山表面样本。 所以我们先来康康挖回来的土样本长什么样: 是五彩斑斓的黑! 所以,对比长久以来人们认知范围内的月球的“青年时期”,这次研究带来的新数字让这一时期“延长”了10亿年左右。 再看NASA的月球勘测轨道飞行器(LRO)收集到的所有月球环形山的年龄列表,也能发现这些环形山的年龄都小于10亿年。 因此,这项研究也填补了30亿~10亿年前的空白,能帮助人类更好地研究月球及太阳系中的其他岩石行星。
metagenomics on a nanopore)为封面,刊登了英国东安格利亚大学 Justin O'Grady 博士及合作者共同发布的首个使用纳米孔技术的快速、经济的宏基因组测序方法,直接从患者呼吸道样本中准确快速地识别细菌病原体 据悉,为了能够准确、快速地识别细菌病原体,研究团队开发了一种能够从临床样本中去除多达 99.99%的宿主核酸的流程,并在便携式 MinION 测序仪上开展了实时的检测和分析。 二、下载数据 https://www.ebi.ac.uk/ena/browser/view/PRJEB30781 三、病原微生物鉴定 3.1单个样本 过滤宿主序列 #数据路径 #/data clincal #去除宿主 REF=/MetaDatabase/human/GCF_000001405.39_GRCh38.p13_genomic.fna READ=/data/PRJEB30781/P10 .filter.fq.gz #统计过滤前后数变化 seqkit stat /data/PRJEB30781/P10.fastq.gz P10.filter.fq.gz 将过滤完的数据,使用 centrifuge
上一节我们介绍了python版visium HD数据的一种分析策略(python版10X空转visium HD分析策略一【scanpy+squidpy】)。 在实践过程中发现,scanpy+squidpy分析visium HD数据可能更符合大家先前的分析习惯及流程,且对于文件的要求与visium spots一致,对于单样本或者少量样本分析是不错的选择;但是SpatialData 这里我们使用的数据还是10X的数据,文章在https://www.nature.com/articles/s41588-025-02193-3,我们下载了两例数据用于演示多样本分析,结直肠癌数据以对照数据 https://www.10xgenomics.com/platforms/visium/product-family/dataset-human-crc。 因为visium HD bins多,数据很大,看这里我们整合的两个样本包含949126个bins,那么对于下游的处理能力又很大的要求,如果样本更多的数据整合进行分析,负担会非常重。
既往整理过R语言版本的读取流程:常见不同单细胞数据类型的读取及Seurat对象创建方法整理(单多样本/10X/h5/txt/csv/tsv),https://mp.weixin.qq.com/s/p32aRJcBdyoBi1kooYO2LA 此外也整理过简单的多样本10X单细胞数据整理及读取流程:Seurat和h5ad数据相互转化以及10X多样本数据整理和读取(Python),https://mp.weixin.qq.com/s/kz_J2C5Eg0sV8affQrU7Fg :遍历所有文件的完整路径 for sample in samples: # 第二层循环:遍历每个样本名 if sample in file_path: # 判断这个样本名是否出现在文件路径中 .读取样本sce_list = []for sample in samples: sample_path = os.path.join(dir_path, sample) # 读取10X格式数据 adata = sc.read_10x_mtx(sample_path, var_names='gene_symbols', cache=True) # 过滤:至少5个细胞的基因,至少500
import pandas as pd def getEmpDataFrame(num): '''创建一份可复用的数据,有一定的随机性和真实性''' #员工编号 emp = [''] * num lenNum = len(str(num)) for i in range(num): emp[i] = str(i+1).zfill(lenNum) #性别:男多女少 sex = [1] * int(r
提示工程(Prompt Engineering)已经成为提升大模型的零样本、少样本推理能力的基本操作。然而,在大模型实际落地解决下游业务问题的时候,我们往往还需要一些针对性的样本对模型进行微调训练。 本研究表明,细致地考虑大模型微调样本的设计,可以使用更少的样本训练出在下游任务上表现更好的模型。 然而,由于成本问题、政策问题、数据安全问题,许多中小企业或个人是无法使用GPT3/4这种级别的大模型的,转而选择一些开源的稍小的LLMs(尤其10B左右),这时,仅仅使用PE技巧来设计prompt是无法解决许多稍微复杂点的下游任务的 来对上述方面进行对比: GENIA 数据集:一个分子生物学领域的嵌套实体识别(Nested-NER)任务,一个经典的较为复杂的NLP任务; MAVEN 数据集:一个开放域事件抽取任务,我们使用了其中的10 进一步的对PE和SDE关系的实验分析说明了在零样本/少样本推理下好的prompt,不一定能指导我们设计好的下游微调样本,这表明了SDE背后复杂的机理,期待更多的后续研究。
temp文件夹下创建vxogkynyop文件图片向文件中写入加密的代码图片此加密代码解密后是一段shellcode 用于解密核心PE文件的还会再temp文件夹下创建wdxw2bfd6vcc5n文件 此文件为样本的核心代码 解密后的数据是PE文件 解密算法就在vxogkynyop文件中图片在临时文件夹下创建frhdgr.exe文件 向文件中写入PE文件创建进程 进程参数就是vxogkynyop文件图片提取样本图片第二层代码 进程拷贝PE文件(按内存对齐展开) 注:此pe文件就是wdxw2bfd6vcc5n文件解密后的图片运行程序本进程退出图片第四层代码-新创建的Frhdgr.exe进程开始会检查有没有 -u参数如果有就睡10 \x00.{1,10}\x68...\x00\x68...\x00\x68...\x00\x03\xc1""", t) if temp ! t[off + 4 :]) # print(hex(addr)) addr -= 0x400000 ret = [t[addr : addr + dlen]] dlen = 10
URL: hXXps://open.googlesheetpage.org/KcyRbGDJKRZoaLq8lHh8/C0sHwcGMH2/jnobmAFCMoY=
在 Prometheus 中,"样本"(Sample)是指时间序列数据的一个基本单位,包含了某个特定时刻的一个度量值。一个样本由以下几部分组成: 1. 度量名称(Metric Name) 每个样本都关联着一个度量(或指标)名称,这个名称用于描述被监控的事物。 Prometheus 样本的类型 Prometheus 支持多种度量类型,它们定义了样本值的含义和如何增长: Counter(计数器):计数器值只能增加,表示某个事件的累计发生次数(例如 HTTP 请求总数 示例:不同类型的样本 1. Gauge 样本 cpu_usage{job="api-server", instance="server1"} 0.75 这个样本表示 cpu_usage(CPU 使用率)为 0.75,即 75%。
形式化来说,few-shot 的训练集中包含了很多的类别,每个类别中有多个样本。 (batch)样本作为模型的预测对象(batch set)。 如果K值很小(通常K<10),我们称这种分类任务为极少样本分类任务(当K=1时,变成单样本分类任务)。 为了清楚起见,让我们详细说明度量学习算法是如何解决少样本分类任务的(以下定义为带标签样本的支持集,以及我们要分类的查询图像集): 我们从支持集和查询集的所有图像中提取特征(通常使用卷积神经网络)。 在元训练期间,MAML学习初始化参数,这些参数允许模型快速有效地适应新的少样本任务,其中这个任务有着新的、未知的类别。 MAML目前在流行的少样本图像分类基准测试中的效果不如度量学习算法。