首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏算法channel

    使用 4样本画出 ROC 曲线

    今天,咱们用 4样本,使用逻辑回归,分类阈值分别从 0.,0.2,0.4,0.6,0.8,1.0,依次变化,分别求出对应分类阈值的 FRP 和 TPR 值。 # 有监督任务,四个样本的实际值: target = np.array([1,0,1,0]) 计算公式: def TPR(TP,FN): return TP / (TP + FN) def FPR(FP,TN): return FP / (FP + TN) 使用逻辑回归 Logistic regression,得到 4样本的概率分布为:[0.8,0.6,0.4,0.2] 当分类阈值参数

    1K10发布于 2020-04-01
  • 来自专栏生信菜鸟团

    DeepSeek助力快速生成DNBC4tools所需样本对应信息

    工欲善其事 必先利其器 前面我们介绍了华大 DNBelab C SeriesTM 单细胞转录组定量的基本流程: DNBC4tools—华大DNBelab系列单细胞分析pipeline 明确需求 其中在准备样本数据步骤有提到 ,多样本处理首先需要制作一个自己的样本信息对应列表sample.tsv : 第一列是样本名称 第二列是 cDNA 文库测序数据,多个 fastq 文件以逗号分隔,R1 和 R2 文件以分号分隔。 _R1.fq.gz,/data/oligo4_R1.fq.gz;/data/oligo1_R2.fq.gz,/data/oligo4_R2.fq.gz  $sample2 /data/cDNA2_R1. rna multi --list sample2.tsv --genomeDir ~/reference/human/homo_ensembl_112_dnbc4_index --threads 10 详见: DNBC4tools—华大DNBelab系列单细胞分析pipeline 玩转服务器—从前台到后台,让你的任务无忧运行

    31700编辑于 2025-06-11
  • 来自专栏MyBlog

    利用误分类样本来防御对抗样本

    作者首先讲正确分类的样本集合记做 ? ,误分类的样本集合记做 ? 。统一使用对抗训练进行防御,分别只对 ? 和 ? 进行扰动,以及两者均进行扰动,比较这三者的对抗鲁棒性。 这里的扰动,指的就是生成对应的对抗样本加入到训练集合中 对抗鲁棒性指的是,在对抗样本作为输入时,模型的精度 ? 首先作者改变了扰动的方法,将PGD切换成FGSM,分别单独作用于两个样本集合中,从最终的结果上看,仍然是对误分类样本扰动对鲁棒性的提升比较明显,如下图所示: ? (反之,如果模型对于对抗样本和正常样本的输出分布类似,鲁棒性越高?) 然后我们看蓝色虚线(BCE[以扰动样本作为输入]+KL散度)和绿色线(BCE[以普通样本作为输入]+KL散度),说明基础的精度那一项的输入还是扰动样本要优。 KL项的系数 ?

    86610发布于 2021-03-16
  • 来自专栏DeepHub IMBA

    样本和少样本学习

    而·少样本学习的思想是通过比较数据来学习区分类,这样模型使用的数据更少,并且比经典模型表现得更好。在少样本学习中通常会使用支持集(support set)代替训练集。 少样本学习是一种元学习技术。 K-Way N-Shot支持集:支持集具有K类,每个类都有N样本。N-Shot意味着为每个类提供的样本数。如果每个另类都有更多样本,模型可以学习的更好。 孪生网络 孪生网络使用正面和负样本进行分类。 通过比较这样就得到了我们的预测分类 单样本学习 one-shot learning是少样本学习的一种特殊情况,即从一个样本学习并再次识别物体。 从监督到零样本的模式识别 我们以前在经典的分类模型中的做法是这样的: 但当出现新的类别时,该怎么做呢?关键是零样本学习。零样本学习的主要思想是将类别嵌入为向量。

    1.3K20编辑于 2022-11-11
  • 来自专栏科研菌

    28个样本4种不同分析方法的比较发了9分?

    作者对28例癌症患者的WES和RNA-seq数据,使用4种HLA分型工具(OptiType、Phlat、Polysolver和seq2hla)来预测HLA类Ia基因,接着分别用NGS技术与PCR-SBT http://mpvideo.qpic.cn/0bf2dyb3saadeeaozpnofzpvghwdxepahoia.f10002.mp4? 生物信息学算法的预测已经成为一种潜在的解决方案,因此,本文通过对4种广泛使用的HLA分型工具(OptiType、 Phlat、Polysolver和seq2hla)进行准确性比较,从而确定最佳分型方法。 图1:HLA分型表现 移除28例样本中低表达的两例HLA基因的样本后,从RNA-seq数据中提取4位分辨率的 HLA分型的OptiType的准确性提高为98.72%,表明HLA基因的低表达可能降低 图3:不同样本类型和计算机模拟后的准确性比较 小结 本篇文章的研究思路和过程较为简单,作者对28例癌症患者进行FFPE肿瘤组织和匹配正常样本的全外显子测序和肿瘤样本的RNA测序。

    1.7K30发布于 2020-11-23
  • 来自专栏生信喵实验柴

    临床样本检测

    据悉,为了能够准确、快速地识别细菌病原体,研究团队开发了一种能够从临床样本中去除多达 99.99%的宿主核酸的流程,并在便携式 MinION 测序仪上开展了实时的检测和分析。 该方法从样品到结果仅需 6 小时,对病原体检测的敏感性 96.6%、特异性 41.7%,同时可检测抗生素抗性基因; 4. 二、下载数据 https://www.ebi.ac.uk/ena/browser/view/PRJEB30781 三、病原微生物鉴定 3.1单个样本 过滤宿主序列 #数据路径 #/data PRJEB30781/P10.fastq.gz minimap2 -ax map-ont $REF $READ -Y -N 20 -t 12 >minimap2.sam samtools fastq -f 4 PWD/${i} ${i%.*.gz}.result ${i%.*.gz}.report";done; #保存结果到temp.list中 awk '{print $1"\t"$2"\t\t"$3"\t"$4}

    78120编辑于 2023-02-24
  • 4亿数据训练,零样本能力惊人:CLIP模型全解读

    对比学习属于自监督学习方法,其目标是训练嵌入模型生成能够将相似样本在空间中拉近、相异样本推远的嵌入表示。简而言之,在对比学习中,模型处理成对的对象。 架构与训练CLIP开发团队收集了包含4亿对(图像,文本)的大规模数据集,每张图像都配有文字描述。其目标是构建有意义的嵌入表示,使得它们之间的相似度能够衡量文本描述与图像的匹配程度。 为此,作者采用了两种已有的模型架构:文本嵌入模型图像嵌入模型初始的4亿对图像和文本被分成批次。每个批次中的图像和文本分别通过图像或文本嵌入模型生成嵌入表示。 鉴于数据集规模庞大(4亿对),ViT通常比ResNet更受青睐。 通过在4亿对(图像,文本)数据上训练,CLIP在多项任务中达到了领先水平。尽管CLIP在某些下游抽象任务上表现不佳,但其零样本技术在执行其他标准计算机视觉任务方面仍具有出色能力。

    3K10编辑于 2025-09-04
  • 来自专栏python3

    Python练手,样本

     0 :             lvl[i] = 2             continue         lvl[i] = 1              #入职年长:跟职级和年龄有关  #通常4年升 i] - 28 :                 yrs[i] = age[i] - 28              else:                 yrs[i] = lvl[i] * 4           if sex[i] == 0 :             if lvl[i] * 4 >= age[i] - 22 :                 yrs[i] = age[i] -  22              else:                 yrs[i] = lvl[i] * 4           #学历:年龄小的平均学历相对高些,职级高的学历相对高些      edu = [0] * num     for i in range(num):         if lvl[i] == 5 or lvl[i] == 4 :             if age[i

    57030发布于 2020-01-13
  • 来自专栏SimpleAI

    样本,事半功倍:使用样本设计工程 (SDE) 来构造更好的大模型下游微调样本

    无论学术界还是工业界,对PE的研究,主要还是围绕GPT3、GPT4、PaLM等等超大的、最先进的大模型展开的。 每一种选项我们进行48次实验,包括了在6个模型、4个任务(2个ID和2个OOD)、2个训练大小(500和1000)上的实验,然后将ID、OOD内结果进行平均,不同训练大小结果进行平均,绘制了如上图所示的柱状图 例如我们有6个预定义的方面,但是某评论中只出现了2个方面的描述,那么我们在标注输出的时候,就对剩下的4个方面,都使用占位符(比方使用“方面x:未提及”),而非忽略不输出,可以取得明显更好的效果。 对于GENIA和MAVEN两个英文数据集,我们采用 LLaMA2-7B-Chat 进行实验,对于 Review11 中文数据集,我们采用近期刚发布的性能强大的 Qwen1.5-4B-Chat 进行实验。 unsetunset4. 进一步思考:能通过 Prompt 预测什么是好样本吗?

    89621编辑于 2024-04-26
  • 脚本更新----多样本联合分析(Seurat V4)空间基因梯度(STG)

    作者,Evil Genius今日更新脚本,在我们2024年单细胞空间全系列课程上第21课讲到了空间基因梯度,当时以单样本分析做的,我们现在要更新到多样本联合分析。 实现多样本一起分析空间基因梯度,现在免费分享一些分析核心脚本,感觉跟犯罪差不多。可以看基因、细胞、通路的空间梯度细胞组成和信号传导在不同的生态位中有所不同,这可以诱导细胞亚群中基因表达的梯度。 Seurat)library(Matrix)library(RcppML) library(ggplot2)library(dplyr)library(LSGI)library(magick)####以两个样本为例 sr.nmf(data)for (sample in c('HC_1L','HC_1T'))spatial_coords <- data@images[[sample]]@coordinates[, c(4, swap old image with new image seurat.visium@images[[slide]]@image <- new.array ## step4:

    31120编辑于 2024-11-26
  • 来自专栏红队蓝军

    lokibot样本分析

    并创建进程 参数为 C:\Users\xxx\AppData\Local\Temp\frhdgr.exe  C:\Users\xxx \AppData\Local\Temp\vxogkynyop3.主进程退出4. temp文件夹下创建vxogkynyop文件图片向文件中写入加密的代码图片此加密代码解密后是一段shellcode 用于解密核心PE文件的还会再temp文件夹下创建wdxw2bfd6vcc5n文件 此文件为样本的核心代码 解密后的数据是PE文件 解密算法就在vxogkynyop文件中图片在临时文件夹下创建frhdgr.exe文件 向文件中写入PE文件创建进程 进程参数就是vxogkynyop文件图片提取样本图片第二层代码 0x28第三层代码-解密后的shellcode1.Temp文件夹下打开了wdxw2bfd6vcc5n文件2.获取wdxw2bfd6vcc5n文件的大小3.申请空间 读入wdxw2bfd6vcc5n文件的数据4. ].find(b"\x00\x00\x00\x00")    off += addr + dlen + 4 + 4    iv = t[off : off + 8]    # This doesn't 

    55920编辑于 2023-09-13
  • 来自专栏Khan安全团队

    Dangerouspassword ( Lazarus ) APT样本

    URL: hXXps://open.googlesheetpage.org/KcyRbGDJKRZoaLq8lHh8/C0sHwcGMH2/jnobmAFCMoY=

    54920编辑于 2022-04-02
  • 来自专栏学习与分享

    【Prometheus】Prometheus的样本

    在 Prometheus 中,"样本"(Sample)是指时间序列数据的一个基本单位,包含了某个特定时刻的一个度量值。一个样本由以下几部分组成: 1. 4. 度量值(Value) 每个样本包含一个度量值,即采集到的数值。例如,一个计数器可能表示某个事件发生的次数,或者一个 gauge(仪表)指标可能表示某个资源的当前使用量。 示例:不同类型的样本 1. Gauge 样本 cpu_usage{job="api-server", instance="server1"} 0.75 这个样本表示 cpu_usage(CPU 使用率)为 0.75,即 75%。 4.

    61210编辑于 2024-12-18
  • 来自专栏CV学习史

    样本学习介绍

    形式化来说,few-shot 的训练集中包含了很多的类别,每个类别中有多个样本。 (batch)样本作为模型的预测对象(batch set)。 如果K值很小(通常K<10),我们称这种分类任务为极少样本分类任务(当K=1时,变成单样本分类任务)。 为了清楚起见,让我们详细说明度量学习算法是如何解决少样本分类任务的(以下定义为带标签样本的支持集,以及我们要分类的查询图像集): 我们从支持集和查询集的所有图像中提取特征(通常使用卷积神经网络)。 在元训练期间,MAML学习初始化参数,这些参数允许模型快速有效地适应新的少样本任务,其中这个任务有着新的、未知的类别。 MAML目前在流行的少样本图像分类基准测试中的效果不如度量学习算法。

    2.1K21发布于 2019-09-05
  • 来自专栏Bypass

    Webshell 高级样本收集

    收集样本,那可是一件很有趣的精细活。从样本里,你可能会发现很多技巧,并进入另一个视角来领略攻击者的手法。 当在安全社区里看到一些比较高级的Webshell样本,就如同发现宝藏一般欣喜,我会把它保存起来,慢慢地收集了大量的Webshell样本。 什么情况下需要海量的Webshell样本呢? 最近,我就在做产品Webshell扫描检测率方面的测试工作,以前积累下来的Webshell武器库给我的工作带来了极大的便利,通过去分类归整,同时整合了网络上的一些资源,形成一个测试样本库。 ---- 1、JSP高级对抗样本 这个一个可能会改变你对JSP Webshell认知的项目,提供了18个JSP高级样本具有很高的研究价值。 Github项目地址: https://github.com/tennc/webshell 4、Webshell样本库 Github项目地址: https://github.com/ysrc/webshell-sample

    1.2K10发布于 2020-08-02
  • 来自专栏科研猫

    临床样本组学研究Day4:表观遗传组学(甲基化测序)

    MeDIP-Seq的覆盖范围主要是高CpG密度、高DNA甲基化水平区域,和RRBS相似,适用于大样本量的甲基化研究。 4:差异甲基化位点与生存分析 举例: 结果解释:利用Lasso回归模型、Boosting算法等建模验证甲基化标签可预测两对照组的overall survive。 ://www.sohu.com/a/275444467_278730 http://www.mianfeiwendang.com/doc/a89b814c65ab23f817e864af/2 临床样本组学研究系列往期 临床样本组学研究Day1--组学的研究背景及概述 临床样本组学研究Day2--RNA 及转录组学研究(mRNA ) 临床样本组学研究Day3--RNA 及转录组学研究(ncRNA

    1.8K42编辑于 2022-02-28
  • 来自专栏红队蓝军

    lokibot样本分析

    参数为 C:\Users\xxx\AppData\Local\Temp\frhdgr.exe C:\Users\xxx \AppData\Local\Temp\vxogkynyop 3.主进程退出 4. 文件夹下创建vxogkynyop文件 向文件中写入加密的代码 此加密代码解密后是一段shellcode 用于解密核心PE文件的 还会再temp文件夹下创建wdxw2bfd6vcc5n文件 此文件为样本的核心代码 解密后的数据是PE文件 解密算法就在vxogkynyop文件中 在临时文件夹下创建frhdgr.exe文件 向文件中写入PE文件 创建进程 进程参数就是vxogkynyop文件 提取样本 第二层代码 第三层代码-解密后的shellcode 1.Temp文件夹下打开了wdxw2bfd6vcc5n文件 2.获取wdxw2bfd6vcc5n文件的大小 3.申请空间 读入wdxw2bfd6vcc5n文件的数据 4. :].find(b"\x00\x00\x00\x00") off += addr + dlen + 4 + 4 iv = t[off : off + 8] # This doesn't

    47820编辑于 2023-09-05
  • 来自专栏R语言及实用科研软件

    🧐 pwr | 谁说样本量计算是个老大难问题!?(三)(配对样本与非等比样本篇)

    1写在前面 之前我们介绍的基于发生率或者均值进行样本量计算的方法,但都是在组间进行计算。 有的时候我们需要获取组内变化,进行样本量计算。 常见的就是配对样本,比如相同受试者进行多个时间点的观察,如下图: 本期我们就介绍一下如何估算配对样本样本量吧。 4计算样本量 现在我们假设需要招募足够多的受试者,以检测节食开始3周后体重减轻了5磅。⤵️ 假设基线平均体重为130磅,标准差为11,节食3周后,预期平均体重为125磅,标准差为12。 ---- 4.2 pwr计算样本量 现在,我们可以利用pwr包计算节食前后平均体重变化差(5磅)所需的样本量,具有 80%的power和0.05的显著性。 解决这个问题的唯一方法是招募更多患者或通过放宽纳入标准来扩大样本量。

    1.3K20编辑于 2023-02-24
  • 对话系统中零样本与少样本学习技术解析

    获奖论文《面向任务型对话系统的零样本与少样本知识寻求轮次检测》由应用科学家Di Jin、Shuyang Gao、首席应用科学家Seokhwan Kim、Yang Liu以及高级首席科学家Dilek Hakkani-Tür 但这需要大量正负样本,而开放域对话系统允许用户提出任意问题,难以收集足够数量的域外样本。" 性能优势实验结果显示:REDE模型在低资源和高资源设置下,对标准请求和域外请求的性能均优于传统二元分类器在零样本和少样本场景中,REDE模型相比BERT等传统分类器获得更大性能优势技术价值Seokhwan

    15210编辑于 2025-10-07
  • 来自专栏拓端tecdat

    R语言参数检验 :需要多少样本?如何选择样本数量

    例如,t检验是众所周知的参数检验,假设样本均值具有正态分布。由于中心极限定理,如果样本量足够,测试也可以应用于非正态分布的测量。在这里,我们将研究t检验有效所需的大致样本数。 将正态分布拟合到采样均值 为了研究满足t检验要求所需的样本数量,我们迭代各种样本量。对于每个样本大小,我们从几个分布中抽取样本。然后,计算样本的平均值,并将正态分布拟合到平均值的分布。 297.08253 -515.18702 -3806.447 ## 3 15 909.4417 -30.63266 -199.77525 -455.64737 -2119.944 ## 4 验证对数似然标准 作为结果的验证,让我们绘制样本大小为5的直方图和平均分布变为正常的样本大小: ? plot.means(norm.means) 这些结果表明对数似然准则是正态性的充分代理。 结论 这些实验的结果表明,对于小于20的样本,绝对应该避免学生t检验。当样本量至少为100时,大多数分布似乎都满足了测试的假设。 总之,特别建议检查样本大小低于100的测量分布。

    92810发布于 2020-11-11
领券