有一个简单的办法:你只需要随机问5个人即可! 假设你得到的答案是:30分钟、50分钟、40分钟、60分钟和45分钟。 这5个数字的最小值为30,最大值为60。 原理 上面用到的方法叫5人法则。该方法之所以有效,是因为它估计的是群体的中间值。所谓“中间值”(或中位数),就是群体中有一半的值大于它,一半的值小于它。 假如我们随机选的5个都大于或都小于中间值,那么中间值就在30~60的范围之外。这样的情况概率有多大呢? 根据定义,随机算一个值,其大于中间值的概率是50%。这个扔一个硬币,正面朝上的概率是一样的。 随机选择5个都大于中间值的概率,等于连续扔5次硬币全部正面朝上的概率。这样的概率是1/32,即3.125%。同样,所有5个都小于中间值的概率也是3.125%。 中间值在5个人范围(30~60)的概率 = 100% - 3.125% - 3.125% = 93.75% 有时候,一个好的测量方法,能够大大节省成本!
文章利用从临床搜集的胰腺导管腺癌(PDAC)病人样本,通过LASSO算法及Cox回归分析,构建5分子预后模型,同时利用生存曲线、ROC曲线和多变量Cox回归分析验证了该模型的预后价值,并评估该模型预测术后 病人样本的获取 从北京协和医院(PUMCH)获取了381个病人样本,作为模型的训练数据集;从仁济医院(RJH)获取了169个病人样本;从哈尔滨医科大学附属第一医院(HMH)获取了116个病人样本,作为模型的两个不同的验证数据集 此外,与临床病理特征不同,该5分子预测模型是唯一的在3类数据中均为独立预后因素的因素(表1)。 ? 在根据上述临床病理参数分层的大多数癌症亚组中,5分子预测模型也可有效区分不同的DSS(图3)。 5. 5分子预测模型预测ACT治疗患者预后 在所有三个数据集(整个数据集,训练数据集和验证数据集)中,接受术后ACT治疗的患者的预后均未比未接受术后ACT的患者好。 这些结果表明,5分子预测模型可能有助于区分可从ACT中获益更多的患者。 ? ? 结语 本研究利用临床收集的病例样本,旨在构建一个多分子生物标志物预测模型,以更准确地预测PDAC术后患者的预后。
作者首先讲正确分类的样本集合记做 ? ,误分类的样本集合记做 ? 。统一使用对抗训练进行防御,分别只对 ? 和 ? 进行扰动,以及两者均进行扰动,比较这三者的对抗鲁棒性。 这里的扰动,指的就是生成对应的对抗样本加入到训练集合中 对抗鲁棒性指的是,在对抗样本作为输入时,模型的精度 ? 首先作者改变了扰动的方法,将PGD切换成FGSM,分别单独作用于两个样本集合中,从最终的结果上看,仍然是对误分类样本扰动对鲁棒性的提升比较明显,如下图所示: ? (反之,如果模型对于对抗样本和正常样本的输出分布类似,鲁棒性越高?) 然后我们看蓝色虚线(BCE[以扰动样本作为输入]+KL散度)和绿色线(BCE[以普通样本作为输入]+KL散度),说明基础的精度那一项的输入还是扰动样本要优。 KL项的系数 ?
而·少样本学习的思想是通过比较数据来学习区分类,这样模型使用的数据更少,并且比经典模型表现得更好。在少样本学习中通常会使用支持集(support set)代替训练集。 少样本学习是一种元学习技术。 K-Way N-Shot支持集:支持集具有K类,每个类都有N样本。N-Shot意味着为每个类提供的样本数。如果每个另类都有更多样本,模型可以学习的更好。 孪生网络 孪生网络使用正面和负样本进行分类。 通过比较这样就得到了我们的预测分类 单样本学习 one-shot learning是少样本学习的一种特殊情况,即从一个样本学习并再次识别物体。 从监督到零样本的模式识别 我们以前在经典的分类模型中的做法是这样的: 但当出现新的类别时,该怎么做呢?关键是零样本学习。零样本学习的主要思想是将类别嵌入为向量。
metagenomics on a nanopore)为封面,刊登了英国东安格利亚大学 Justin O'Grady 博士及合作者共同发布的首个使用纳米孔技术的快速、经济的宏基因组测序方法,直接从患者呼吸道样本中准确快速地识别细菌病原体 据悉,为了能够准确、快速地识别细菌病原体,研究团队开发了一种能够从临床样本中去除多达 99.99%的宿主核酸的流程,并在便携式 MinION 测序仪上开展了实时的检测和分析。 文章地址: https://www.nature.com/articles/s41587-019-0156-5 1.2 文章详细解读 宏基因组公众号文章《NBT 封面:纳米孔基因组测序快速临床诊断细菌性下呼吸道感染 5. 纳米孔宏基因组学可以快速准确地表征细菌 LRI,有助于减少广谱抗生素的使用。 二、下载数据 https://www.ebi.ac.uk/ena/browser/view/PRJEB30781 三、病原微生物鉴定 3.1单个样本 过滤宿主序列 #数据路径 #/data
是时候在新增的样本上试一下了。」 ? 他们重建了含有 60000 个样本的 MNIST 完整测试集。由于多出的 50000 个样本从未被发布过,研究者可以利用这些样本探究 25 年来的 MNIST 实验在已发布的测试集上的影响。 图 5:使用 MNIST(左图)或 QMNIST(右图)训练集的不同 k 值的 knn 误差率。红圈:在 MNIST 上测试。蓝色三角形:在 QMNIST 上进行测试。 图 6:在 MNIST 训练集上训练后,使用与图 5 相同的颜色和符号,各种不同的正则化参数 c(左图)和 rbf 内核参数 g(右图)下的 SVM 错误率。 ? 图 7:左图:使用与图 5 相同的颜色和符号对 MNIST 进行训练后 MLP 各隐藏层的错误率。右图:比较所有 MLP 实验的 MNIST 和 QMNIST50 测试误差的散点图。 ?
前言 在YOLOv5的6.1版本新出了xView.yaml数据配置文件,提供了遥感数据集xView的检测方法。此篇就使用YOLOv5来试跑xView数据集,并对一些小样本检测的策略进行消融实验。 xView数据集下载:https://github.com/zstar1003/Dataset 数据预处理 在YOLOv5的xView.yaml文件中,提供了xView数据集的预处理方式。 小样本检测策略实验 起初我使用默认的640x640的img-size,但是在这种小样本的检测中,效果很糟。 我想到了之前学习过的【目标检测】YOLOv5针对小目标检测的改进模型中的小样本检测策略,正好在此次也加入测试。 同时,我也使用了更大尺寸的输入图片尺寸,结果却使小样本丢失,而大样本检测效果更好。 下面是可视化的展示结果:图一是原图标签可视化;图二是表中第二行结果;图三是表中最后一行结果。
结果与讨论 产物预测 在 USPTO_MIT 数据集上,ReactionT5 的 Top-1 准确率达到 97.5%,显著优于 T5Chem(90.4%)。 即便在零样本预测条件下,ReactionT5 也能取得 92.8% 的准确率。特别是在小数据微调实验中,仅使用几十到几百条反应即可达到接近完整数据训练的效果,展现了在数据受限场景下的鲁棒性。 即便仅用 100 条反应进行微调,其准确率也接近在完整数据集上训练的 T5Chem,证明了其快速适应小样本的能力。 值得注意的是,ReactionT5 在零样本预测下依旧能展现良好性能,凸显了其泛化性。 在产物预测、逆合成预测和收率预测三大任务中均优于现有模型,并且在零样本与小数据场景下表现突出。可视化结果进一步证明其对反应空间的有效表征。
[0] * num for i in range(num): if lvl[i] ==0 and (i+1) % 33 == 0 : lvl[i] = 5 #学历:年龄小的平均学历相对高些,职级高的学历相对高些 edu = [0] * num for i in range(num): if lvl[i] == 5 i] < 35 and edu[i] == 2: ris[i] = 1 if edu[i] == 1 and age[i] > 50 and yrs[i] < 5:
提示工程(Prompt Engineering)已经成为提升大模型的零样本、少样本推理能力的基本操作。然而,在大模型实际落地解决下游业务问题的时候,我们往往还需要一些针对性的样本对模型进行微调训练。 本研究表明,细致地考虑大模型微调样本的设计,可以使用更少的样本训练出在下游任务上表现更好的模型。 相比于“如何设计prompt”这方面繁荣的PE研究,“如何设计下游微调样本”,相关研究则十分匮乏。正如不同的prompt设计会影响LLMs零样本推理的性能,不同的样本设计也可能会对微调后的模型有影响。 例如,500 个 ES-SDE 样本的训练效果,就相当于约 2000 个 EW-SDE / heuristic 样本! 这印证了 ES-SDE 生成的微调样本具有极高的质量。 进一步的对PE和SDE关系的实验分析说明了在零样本/少样本推理下好的prompt,不一定能指导我们设计好的下游微调样本,这表明了SDE背后复杂的机理,期待更多的后续研究。
释放PE文件在temp文件夹下创建vxogkynyop文件图片向文件中写入加密的代码图片此加密代码解密后是一段shellcode 用于解密核心PE文件的还会再temp文件夹下创建wdxw2bfd6vcc5n 文件 此文件为样本的核心代码 解密后的数据是PE文件 解密算法就在vxogkynyop文件中图片在临时文件夹下创建frhdgr.exe文件 向文件中写入PE文件创建进程 进程参数就是vxogkynyop 文件图片提取样本图片第二层代码-frhdgr.exe进程解密代码 ((xx-0x18) ^ 0x80) - 0x28第三层代码-解密后的shellcode1.Temp文件夹下打开了wdxw2bfd6vcc5n 文件2.获取wdxw2bfd6vcc5n文件的大小3.申请空间 读入wdxw2bfd6vcc5n文件的数据4.文件句柄关闭函数3a0a2b解密出PE文件图片又创建了自己 并且是挂起状态获取进程的线程上下文图片图片在新创建的 可再次获取浏览器的信息 支持下载数据 创建进程 加载模块和打开网页等操作核心函数sub_40648B 通过参数的不同执行不同的操作 参数介绍: 1.要下载数据的地址(url) 2.03.04.文件的后缀5.
低密度分离假设:分类边界应该处于样本空间的低密度区。 想要回顾下原始这三种方案的实现可以看这里小样本利器1.半监督一致性正则小样本利器3.半监督最小熵正则小样本利器4.正则化+数据增强Mixup本章介绍几种半监督融合方案,包括MixMatch,和其他变种MixText 前者通过调整temperature可以生成多样性更好的增强样本,后者在分类问题中对核心关键词有更好的保护作用,生成的增强样本有效性更高。 ,只对样本预测概率最大值>threshold的样本计算,如果样本预测置信度太低则不进行约束。 样本筛选:作者用原始模型在有标注上训练,在未标注样本上预测,过滤模型预测置信度太低的样本 核心是为了从大量的无标注样本中筛选和标注样本领域相似的样本,避免一致性正则部分引入太多的样本噪声。
URL: hXXps://open.googlesheetpage.org/KcyRbGDJKRZoaLq8lHh8/C0sHwcGMH2/jnobmAFCMoY=
在 Prometheus 中,"样本"(Sample)是指时间序列数据的一个基本单位,包含了某个特定时刻的一个度量值。一个样本由以下几部分组成: 1. "api-server", instance="server1" 值:10234(表示接收到的 HTTP GET 请求的数量) 时间戳:1617902462000(这个样本的时间戳,单位为毫秒) 5. Prometheus 样本的类型 Prometheus 支持多种度量类型,它们定义了样本值的含义和如何增长: Counter(计数器):计数器值只能增加,表示某个事件的累计发生次数(例如 HTTP 请求总数 示例:不同类型的样本 1. Gauge 样本 cpu_usage{job="api-server", instance="server1"} 0.75 这个样本表示 cpu_usage(CPU 使用率)为 0.75,即 75%。
形式化来说,few-shot 的训练集中包含了很多的类别,每个类别中有多个样本。 (batch)样本作为模型的预测对象(batch set)。 如果K值很小(通常K<10),我们称这种分类任务为极少样本分类任务(当K=1时,变成单样本分类任务)。 在预测时,以5way-5shot为例子,从5个类中随机抽取5个样本,把这个mini-batch=25的数据输入网络,最后获得25个值,取分数最高对应的类别作为预测结果,如图。 ? 在元训练期间,MAML学习初始化参数,这些参数允许模型快速有效地适应新的少样本任务,其中这个任务有着新的、未知的类别。 MAML目前在流行的少样本图像分类基准测试中的效果不如度量学习算法。
收集样本,那可是一件很有趣的精细活。从样本里,你可能会发现很多技巧,并进入另一个视角来领略攻击者的手法。 当在安全社区里看到一些比较高级的Webshell样本,就如同发现宝藏一般欣喜,我会把它保存起来,慢慢地收集了大量的Webshell样本。 什么情况下需要海量的Webshell样本呢? 最近,我就在做产品Webshell扫描检测率方面的测试工作,以前积累下来的Webshell武器库给我的工作带来了极大的便利,通过去分类归整,同时整合了网络上的一些资源,形成一个测试样本库。 ---- 1、JSP高级对抗样本 这个一个可能会改变你对JSP Webshell认知的项目,提供了18个JSP高级样本具有很高的研究价值。 github.com/DeEpinGh0st/PHP-bypass-collection https://github.com/lcatro/PHP-WebShell-Bypass-WAF 3、GitHub上5k
文件 在temp文件夹下创建vxogkynyop文件 向文件中写入加密的代码 此加密代码解密后是一段shellcode 用于解密核心PE文件的 还会再temp文件夹下创建wdxw2bfd6vcc5n 文件 此文件为样本的核心代码 解密后的数据是PE文件 解密算法就在vxogkynyop文件中 在临时文件夹下创建frhdgr.exe文件 向文件中写入PE文件 创建进程 进程参数就是vxogkynyop 文件 提取样本 第二层代码-frhdgr.exe进程 解密代码 ((xx-0x18) ^ 0x80) - 0x28 第三层代码-解密后的shellcode 1.Temp文件夹下打开了wdxw2bfd6vcc5n 文件 2.获取wdxw2bfd6vcc5n文件的大小 3.申请空间 读入wdxw2bfd6vcc5n文件的数据 4.文件句柄关闭 函数3a0a2b解密出PE文件 又创建了自己 并且是挂起状态 获取进程的线程上下文 在新创建的Frhdgr.exe进程申请空间 首地址为0x00400000 向新创建的Frhdgr.exe进程拷贝PE文件(按内存对齐展开) 注:此pe文件就是wdxw2bfd6vcc5n文件解密后的
GPT‑SoVITS就是为这些场景设计,实现:零样本克隆:只需5秒即可复刻声音;少样本微调:1分钟语音收集即可达到极高相似度;跨语言支持:无需多语言录入,也能输出多语种音频。 项目概览 “RVC‑Boss/GPT‑SoVITS 是一个零样本和少样本语音克隆与 TTS 的 WebUI 工具” Zero‑shot TTS:凭借 5 秒语音样本,即可生成目标声线的 TTS 语音;Few‑shot 5 秒音频,直接生成那个人的语音。 同类项目对比项目样本需求多语种支持使用门槛社区热度GPT‑SoVITS5 s / 1 min中、英、日、韩、粤图形界面,WebUI 友好⭐4.5w+Coqui‑TTS多语/大语料多语种丰富需代码使用⭐3w +Tortoise‑TTS少样本,但质量不一定英语为主需配置,用 Python 调用⭐5w+Bark‑Voice‑Cloning少样本、无 GUI英语优先支持需 CLI 使用⭐1w+ 从表格可见,GPT‑SoVITS
1写在前面 之前我们介绍的基于发生率或者均值进行样本量计算的方法,但都是在组间进行计算。 有的时候我们需要获取组内变化,进行样本量计算。 常见的就是配对样本,比如相同受试者进行多个时间点的观察,如下图: 本期我们就介绍一下如何估算配对样本的样本量吧。 4计算样本量 现在我们假设需要招募足够多的受试者,以检测节食开始3周后体重减轻了5磅。⤵️ 假设基线平均体重为130磅,标准差为11,节食3周后,预期平均体重为125磅,标准差为12。 ---- 4.2 pwr计算样本量 现在,我们可以利用pwr包计算节食前后平均体重变化差(5磅)所需的样本量,具有 80%的power和0.05的显著性。 这里我们从50磅开始,逐渐增加到130磅,间隔5磅。
作者,Evil Genius今天偷个懒,梳理一下Xenium 5k的多样本整合分析。为什么要说明是多样本整合呢?因为一张芯片大家都放好几个样本,直接就是多样本了。那么此时需不需要多样本去批次呢? sdata.write(zarr_path, overwrite = True)sdata = sd.read_zarr(zarr_path)adata = sdata.table['table']####添加样本信息