搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏思考是一种快乐
5人法则:小样本也有力量
有一个简单的办法：你只需要随机问5个人即可！假设你得到的答案是：30分钟、50分钟、40分钟、60分钟和45分钟。这5个数字的最小值为30，最大值为60。原理上面用到的方法叫5人法则。该方法之所以有效，是因为它估计的是群体的中间值。所谓“中间值”(或中位数)，就是群体中有一半的值大于它，一半的值小于它。假如我们随机选的5个都大于或都小于中间值，那么中间值就在30～60的范围之外。这样的情况概率有多大呢？根据定义，随机算一个值，其大于中间值的概率是50%。这个扔一个硬币，正面朝上的概率是一样的。随机选择5个都大于中间值的概率，等于连续扔5次硬币全部正面朝上的概率。这样的概率是1/32，即3.125%。同样，所有5个都小于中间值的概率也是3.125%。中间值在5个人范围(30~60)的概率＝ 100% - 3.125% - 3.125% = 93.75% 有时候，一个好的测量方法，能够大大节省成本！
1.5K10发布于 2019-09-23
来自专栏百味科研芝士
5分+整合多中心临床样本构建5分子胰腺癌预后模型
文章利用从临床搜集的胰腺导管腺癌（PDAC）病人样本，通过LASSO算法及Cox回归分析，构建5分子预后模型，同时利用生存曲线、ROC曲线和多变量Cox回归分析验证了该模型的预后价值，并评估该模型预测术后病人样本的获取从北京协和医院（PUMCH）获取了381个病人样本，作为模型的训练数据集；从仁济医院（RJH）获取了169个病人样本；从哈尔滨医科大学附属第一医院（HMH）获取了116个病人样本，作为模型的两个不同的验证数据集此外，与临床病理特征不同，该5分子预测模型是唯一的在3类数据中均为独立预后因素的因素（表1）。 ? 在根据上述临床病理参数分层的大多数癌症亚组中，5分子预测模型也可有效区分不同的DSS（图3）。 5. 5分子预测模型预测ACT治疗患者预后在所有三个数据集（整个数据集，训练数据集和验证数据集）中，接受术后ACT治疗的患者的预后均未比未接受术后ACT的患者好。这些结果表明，5分子预测模型可能有助于区分可从ACT中获益更多的患者。 ? ? 结语本研究利用临床收集的病例样本，旨在构建一个多分子生物标志物预测模型，以更准确地预测PDAC术后患者的预后。
84810发布于 2020-07-15
来自专栏MyBlog
利用误分类样本来防御对抗样本
作者首先讲正确分类的样本集合记做 ? ，误分类的样本集合记做 ? 。统一使用对抗训练进行防御，分别只对 ? 和 ? 进行扰动，以及两者均进行扰动，比较这三者的对抗鲁棒性。这里的扰动，指的就是生成对应的对抗样本加入到训练集合中对抗鲁棒性指的是，在对抗样本作为输入时，模型的精度 ? 首先作者改变了扰动的方法，将PGD切换成FGSM，分别单独作用于两个样本集合中，从最终的结果上看，仍然是对误分类样本扰动对鲁棒性的提升比较明显，如下图所示： ? (反之，如果模型对于对抗样本和正常样本的输出分布类似，鲁棒性越高？) 然后我们看蓝色虚线（BCE[以扰动样本作为输入]+KL散度）和绿色线（BCE[以普通样本作为输入]+KL散度），说明基础的精度那一项的输入还是扰动样本要优。 KL项的系数 ?
86610发布于 2021-03-16
来自专栏DeepHub IMBA
零样本和少样本学习
而·少样本学习的思想是通过比较数据来学习区分类，这样模型使用的数据更少，并且比经典模型表现得更好。在少样本学习中通常会使用支持集（support set）代替训练集。少样本学习是一种元学习技术。 K-Way N-Shot支持集：支持集具有K类，每个类都有N样本。N-Shot意味着为每个类提供的样本数。如果每个另类都有更多样本，模型可以学习的更好。孪生网络孪生网络使用正面和负样本进行分类。通过比较这样就得到了我们的预测分类单样本学习 one-shot learning是少样本学习的一种特殊情况，即从一个样本学习并再次识别物体。从监督到零样本的模式识别我们以前在经典的分类模型中的做法是这样的: 但当出现新的类别时，该怎么做呢?关键是零样本学习。零样本学习的主要思想是将类别嵌入为向量。
1.3K20编辑于 2022-11-11
来自专栏生信喵实验柴
临床样本检测
metagenomics on a nanopore）为封面，刊登了英国东安格利亚大学 Justin O'Grady 博士及合作者共同发布的首个使用纳米孔技术的快速、经济的宏基因组测序方法，直接从患者呼吸道样本中准确快速地识别细菌病原体据悉，为了能够准确、快速地识别细菌病原体，研究团队开发了一种能够从临床样本中去除多达 99.99％的宿主核酸的流程，并在便携式 MinION 测序仪上开展了实时的检测和分析。文章地址： https://www.nature.com/articles/s41587-019-0156-5 1.2 文章详细解读宏基因组公众号文章《NBT 封面：纳米孔基因组测序快速临床诊断细菌性下呼吸道感染 5. 纳米孔宏基因组学可以快速准确地表征细菌 LRI，有助于减少广谱抗生素的使用。二、下载数据 https://www.ebi.ac.uk/ena/browser/view/PRJEB30781 三、病原微生物鉴定 3.1单个样本过滤宿主序列 #数据路径 #/data
78120编辑于 2023-02-24
来自专栏机器之心
MNIST的新生：测试集新增5万个样本，Yann LeCun推荐测试
是时候在新增的样本上试一下了。」 ? 他们重建了含有 60000 个样本的 MNIST 完整测试集。由于多出的 50000 个样本从未被发布过，研究者可以利用这些样本探究 25 年来的 MNIST 实验在已发布的测试集上的影响。图 5：使用 MNIST（左图）或 QMNIST（右图）训练集的不同 k 值的 knn 误差率。红圈：在 MNIST 上测试。蓝色三角形：在 QMNIST 上进行测试。图 6：在 MNIST 训练集上训练后，使用与图 5 相同的颜色和符号，各种不同的正则化参数 c（左图）和 rbf 内核参数 g（右图）下的 SVM 错误率。 ? 图 7：左图：使用与图 5 相同的颜色和符号对 MNIST 进行训练后 MLP 各隐藏层的错误率。右图：比较所有 MLP 实验的 MNIST 和 QMNIST50 测试误差的散点图。 ?
1.3K30发布于 2019-06-14
来自专栏往期博文
【目标检测】YOLOv5跑xView数据集小样本检测策略实验
前言在YOLOv5的6.1版本新出了xView.yaml数据配置文件，提供了遥感数据集xView的检测方法。此篇就使用YOLOv5来试跑xView数据集，并对一些小样本检测的策略进行消融实验。 xView数据集下载：https://github.com/zstar1003/Dataset 数据预处理在YOLOv5的xView.yaml文件中，提供了xView数据集的预处理方式。小样本检测策略实验起初我使用默认的640x640的img-size，但是在这种小样本的检测中，效果很糟。我想到了之前学习过的【目标检测】YOLOv5针对小目标检测的改进模型中的小样本检测策略，正好在此次也加入测试。同时，我也使用了更大尺寸的输入图片尺寸，结果却使小样本丢失，而大样本检测效果更好。下面是可视化的展示结果：图一是原图标签可视化；图二是表中第二行结果；图三是表中最后一行结果。
2.1K30编辑于 2022-09-21
来自专栏DrugAI
. | ReactionT5：小样本化学反应预测利器
结果与讨论产物预测在 USPTO_MIT 数据集上，ReactionT5 的 Top-1 准确率达到 97.5%，显著优于 T5Chem（90.4%）。即便在零样本预测条件下，ReactionT5 也能取得 92.8% 的准确率。特别是在小数据微调实验中，仅使用几十到几百条反应即可达到接近完整数据训练的效果，展现了在数据受限场景下的鲁棒性。即便仅用 100 条反应进行微调，其准确率也接近在完整数据集上训练的 T5Chem，证明了其快速适应小样本的能力。值得注意的是，ReactionT5 在零样本预测下依旧能展现良好性能，凸显了其泛化性。在产物预测、逆合成预测和收率预测三大任务中均优于现有模型，并且在零样本与小数据场景下表现突出。可视化结果进一步证明其对反应空间的有效表征。
20320编辑于 2026-01-06
来自专栏python3
Python练手，样本
[0] * num for i in range(num): if lvl[i] ==0 and (i+1) % 33 == 0 : lvl[i] = 5 #学历：年龄小的平均学历相对高些，职级高的学历相对高些 edu = [0] * num for i in range(num): if lvl[i] == 5 i] < 35 and edu[i] == 2: ris[i] = 1 if edu[i] == 1 and age[i] > 50 and yrs[i] < 5:
57030发布于 2020-01-13
来自专栏SimpleAI
好样本，事半功倍：使用样本设计工程 (SDE) 来构造更好的大模型下游微调样本
提示工程（Prompt Engineering）已经成为提升大模型的零样本、少样本推理能力的基本操作。然而，在大模型实际落地解决下游业务问题的时候，我们往往还需要一些针对性的样本对模型进行微调训练。本研究表明，细致地考虑大模型微调样本的设计，可以使用更少的样本训练出在下游任务上表现更好的模型。相比于“如何设计prompt”这方面繁荣的PE研究，“如何设计下游微调样本”，相关研究则十分匮乏。正如不同的prompt设计会影响LLMs零样本推理的性能，不同的样本设计也可能会对微调后的模型有影响。例如，500 个 ES-SDE 样本的训练效果，就相当于约 2000 个 EW-SDE / heuristic 样本！这印证了 ES-SDE 生成的微调样本具有极高的质量。进一步的对PE和SDE关系的实验分析说明了在零样本/少样本推理下好的prompt，不一定能指导我们设计好的下游微调样本，这表明了SDE背后复杂的机理，期待更多的后续研究。
89621编辑于 2024-04-26
来自专栏红队蓝军
lokibot样本分析
释放PE文件在temp文件夹下创建vxogkynyop文件图片向文件中写入加密的代码图片此加密代码解密后是一段shellcode 用于解密核心PE文件的还会再temp文件夹下创建wdxw2bfd6vcc5n 文件此文件为样本的核心代码解密后的数据是PE文件解密算法就在vxogkynyop文件中图片在临时文件夹下创建frhdgr.exe文件向文件中写入PE文件创建进程进程参数就是vxogkynyop 文件图片提取样本图片第二层代码-frhdgr.exe进程解密代码 ((xx-0x18) ^ 0x80) - 0x28第三层代码-解密后的shellcode1.Temp文件夹下打开了wdxw2bfd6vcc5n 文件2.获取wdxw2bfd6vcc5n文件的大小3.申请空间读入wdxw2bfd6vcc5n文件的数据4.文件句柄关闭函数3a0a2b解密出PE文件图片又创建了自己并且是挂起状态获取进程的线程上下文图片图片在新创建的可再次获取浏览器的信息支持下载数据创建进程加载模块和打开网页等操作核心函数sub_40648B 通过参数的不同执行不同的操作参数介绍: 1.要下载数据的地址(url) 2.03.04.文件的后缀5.
55920编辑于 2023-09-13
来自专栏小七的各种胡思乱想
小样本利器5. 半监督集各家所长：MixMatch，MixText，UDA，FixMatch
低密度分离假设：分类边界应该处于样本空间的低密度区。想要回顾下原始这三种方案的实现可以看这里小样本利器1.半监督一致性正则小样本利器3.半监督最小熵正则小样本利器4.正则化+数据增强Mixup本章介绍几种半监督融合方案，包括MixMatch，和其他变种MixText 前者通过调整temperature可以生成多样性更好的增强样本，后者在分类问题中对核心关键词有更好的保护作用，生成的增强样本有效性更高。，只对样本预测概率最大值>threshold的样本计算，如果样本预测置信度太低则不进行约束。样本筛选：作者用原始模型在有标注上训练，在未标注样本上预测，过滤模型预测置信度太低的样本核心是为了从大量的无标注样本中筛选和标注样本领域相似的样本，避免一致性正则部分引入太多的样本噪声。
4.5K20编辑于 2023-01-13
来自专栏Khan安全团队
Dangerouspassword ( Lazarus ) APT样本
URL: hXXps://open.googlesheetpage.org/KcyRbGDJKRZoaLq8lHh8/C0sHwcGMH2/jnobmAFCMoY=
54920编辑于 2022-04-02
来自专栏学习与分享
【Prometheus】Prometheus的样本
在 Prometheus 中，"样本"（Sample）是指时间序列数据的一个基本单位，包含了某个特定时刻的一个度量值。一个样本由以下几部分组成： 1. "api-server", instance="server1" 值：10234（表示接收到的 HTTP GET 请求的数量）时间戳：1617902462000（这个样本的时间戳，单位为毫秒） 5. Prometheus 样本的类型 Prometheus 支持多种度量类型，它们定义了样本值的含义和如何增长： Counter（计数器）：计数器值只能增加，表示某个事件的累计发生次数（例如 HTTP 请求总数示例：不同类型的样本 1. Gauge 样本 cpu_usage{job="api-server", instance="server1"} 0.75 这个样本表示 cpu_usage（CPU 使用率）为 0.75，即 75%。
61210编辑于 2024-12-18
来自专栏CV学习史
小样本学习介绍
形式化来说，few-shot 的训练集中包含了很多的类别，每个类别中有多个样本。（batch）样本作为模型的预测对象（batch set）。如果K值很小（通常K<10），我们称这种分类任务为极少样本分类任务（当K=1时，变成单样本分类任务）。在预测时，以5way-5shot为例子，从5个类中随机抽取5个样本，把这个mini-batch=25的数据输入网络，最后获得25个值，取分数最高对应的类别作为预测结果，如图。 ? 在元训练期间，MAML学习初始化参数，这些参数允许模型快速有效地适应新的少样本任务，其中这个任务有着新的、未知的类别。 MAML目前在流行的少样本图像分类基准测试中的效果不如度量学习算法。
2.1K21发布于 2019-09-05
来自专栏Bypass
Webshell 高级样本收集
收集样本，那可是一件很有趣的精细活。从样本里，你可能会发现很多技巧，并进入另一个视角来领略攻击者的手法。当在安全社区里看到一些比较高级的Webshell样本，就如同发现宝藏一般欣喜，我会把它保存起来，慢慢地收集了大量的Webshell样本。什么情况下需要海量的Webshell样本呢？最近，我就在做产品Webshell扫描检测率方面的测试工作，以前积累下来的Webshell武器库给我的工作带来了极大的便利，通过去分类归整，同时整合了网络上的一些资源，形成一个测试样本库。 ---- 1、JSP高级对抗样本这个一个可能会改变你对JSP Webshell认知的项目，提供了18个JSP高级样本具有很高的研究价值。 github.com/DeEpinGh0st/PHP-bypass-collection https://github.com/lcatro/PHP-WebShell-Bypass-WAF 3、GitHub上5k
1.2K10发布于 2020-08-02
来自专栏红队蓝军
lokibot样本分析
文件在temp文件夹下创建vxogkynyop文件向文件中写入加密的代码此加密代码解密后是一段shellcode 用于解密核心PE文件的还会再temp文件夹下创建wdxw2bfd6vcc5n 文件此文件为样本的核心代码解密后的数据是PE文件解密算法就在vxogkynyop文件中在临时文件夹下创建frhdgr.exe文件向文件中写入PE文件创建进程进程参数就是vxogkynyop 文件提取样本第二层代码-frhdgr.exe进程解密代码 ((xx-0x18) ^ 0x80) - 0x28 第三层代码-解密后的shellcode 1.Temp文件夹下打开了wdxw2bfd6vcc5n 文件 2.获取wdxw2bfd6vcc5n文件的大小 3.申请空间读入wdxw2bfd6vcc5n文件的数据 4.文件句柄关闭函数3a0a2b解密出PE文件又创建了自己并且是挂起状态获取进程的线程上下文在新创建的Frhdgr.exe进程申请空间首地址为0x00400000 向新创建的Frhdgr.exe进程拷贝PE文件(按内存对齐展开) 注:此pe文件就是wdxw2bfd6vcc5n文件解密后的
47820编辑于 2023-09-05
GitHub已破4.5w star，从“零样本”到“少样本”TTS，5秒克隆声音，冲击传统录音棚！
GPT‑SoVITS就是为这些场景设计，实现：零样本克隆：只需5秒即可复刻声音；少样本微调：1分钟语音收集即可达到极高相似度；跨语言支持：无需多语言录入，也能输出多语种音频。项目概览 “RVC‑Boss/GPT‑SoVITS 是一个零样本和少样本语音克隆与 TTS 的 WebUI 工具” Zero‑shot TTS：凭借 5 秒语音样本，即可生成目标声线的 TTS 语音；Few‑shot 5 秒音频，直接生成那个人的语音。同类项目对比项目样本需求多语种支持使用门槛社区热度GPT‑SoVITS5 s / 1 min中、英、日、韩、粤图形界面，WebUI 友好⭐4.5w+Coqui‑TTS多语/大语料多语种丰富需代码使用⭐3w +Tortoise‑TTS少样本，但质量不一定英语为主需配置，用 Python 调用⭐5w+Bark‑Voice‑Cloning少样本、无 GUI英语优先支持需 CLI 使用⭐1w+ 从表格可见，GPT‑SoVITS
88610编辑于 2025-07-01
来自专栏R语言及实用科研软件
🧐 pwr | 谁说样本量计算是个老大难问题！？（三）（配对样本与非等比样本篇）
1写在前面之前我们介绍的基于发生率或者均值进行样本量计算的方法，但都是在组间进行计算。有的时候我们需要获取组内变化，进行样本量计算。常见的就是配对样本，比如相同受试者进行多个时间点的观察，如下图：本期我们就介绍一下如何估算配对样本的样本量吧。 4计算样本量现在我们假设需要招募足够多的受试者，以检测节食开始3周后体重减轻了5磅。⤵️ 假设基线平均体重为130磅，标准差为11，节食3周后，预期平均体重为125磅，标准差为12。 ---- 4.2 pwr计算样本量现在，我们可以利用pwr包计算节食前后平均体重变化差（5磅）所需的样本量，具有 80%的power和0.05的显著性。这里我们从50磅开始，逐渐增加到130磅，间隔5磅。
1.3K20编辑于 2023-02-24
内容复习--Xenium 5k (包括CosMx大panel)基础与多样本整合分析
作者，Evil Genius今天偷个懒，梳理一下Xenium 5k的多样本整合分析。为什么要说明是多样本整合呢？因为一张芯片大家都放好几个样本，直接就是多样本了。那么此时需不需要多样本去批次呢？ sdata.write(zarr_path, overwrite = True)sdata = sd.read_zarr(zarr_path)adata = sdata.table['table']####添加样本信息
52610编辑于 2025-04-16

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

5人法则:小样本也有力量

5分+整合多中心临床样本构建5分子胰腺癌预后模型

利用误分类样本来防御对抗样本

零样本和少样本学习

临床样本检测

MNIST的新生：测试集新增5万个样本，Yann LeCun推荐测试

【目标检测】YOLOv5跑xView数据集小样本检测策略实验

. | ReactionT5：小样本化学反应预测利器

Python练手，样本

好样本，事半功倍：使用样本设计工程 (SDE) 来构造更好的大模型下游微调样本

lokibot样本分析

小样本利器5. 半监督集各家所长：MixMatch，MixText，UDA，FixMatch

Dangerouspassword ( Lazarus ) APT样本

【Prometheus】Prometheus的样本

小样本学习介绍

Webshell 高级样本收集

lokibot样本分析

GitHub已破4.5w star，从“零样本”到“少样本”TTS，5秒克隆声音，冲击传统录音棚！

🧐 pwr | 谁说样本量计算是个老大难问题！？（三）（配对样本与非等比样本篇）

内容复习--Xenium 5k (包括CosMx大panel)基础与多样本整合分析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐