一、前言 本文整理了我对主动学习的理解和最新研究的感悟,主要目的是供大家参考、讨论,一起学习和交流主动学习的技术。 Awesome Active Learning: https://github.com/baifanxxx/awesome-active-learning Note:前 1、2、3 节都是一些主动学习基础内容 有大量的无标签医疗数据,需要从中选择有价值的进行标注,例如从视频数据(胃肠镜视频)标注图像进行检测等; 2. 在获取过程之前,LADA 考虑 1)选择未标记的数据实例和 2)通过数据增强生成的虚拟数据实例。 从主动学习基本理论和问题出发,完善和改进; 2. 与其他 learning 方法或概念结合,改进主动学习或该方法,例如半监督、域自适应、知识蒸馏和强化学习等等; 3.
在前段时间的学习过程里,我不禁问了自己一个问题:视频学习是主动学习还是被动学习? 先让我们看一下两者的区别。 主动学习 主动学习是一种学习者重度参与的学习方式,是一种以学习者为中心的学习方式。 学习者需要以探索者的角色进入学习状态,需要自己的思考、判断,方能融会贯通。 被动学习 被动学习是传统的学习方法,学生很少参与。环境通常以教授者为中心。学者需要通过被动地接受知识。 从学习效率讲,自然是主动学习效率最高。所以我才会有自己的疑问。同样的,还有一个伴生的问题:看视频教程是接受信息还是接受知识? 个人体验 主动学习是需要自己调动自己的注意力,放在学习上,或者源于自身的兴趣,总而言之是需要投入较多精力和注意力的。 主动学习是以我为中心的方式,学习的进度自然不会像视频时间流速一样,肯定是起伏的,而且每个人的起伏都不一样。能够真正内化成知识的内容会更多,因为即学即用,信息经过加工之后,更容易掌握。
1 引言 监督学习模型,例如:支持向量机(SVMs)[1]或者神经网络[2],广泛应用于分类问题[3]。所有分类模型都需使用标记样本训练,并且分类模型的分类效果依赖于标记样本的质量。 目前,常用于分类问题的主动学习算法有三种形式[5]:(1)基于委员会的启发式方法(QBC);(2)基于边缘 的启发式方法(MS);(3)基于后验概率的启发式方法(PP)。 2 主动学习算法 2.1 基于委员会的主动学习算法 主动学习方法选择一定数量的分类模型,构成分类委员会。利用初始训练集训练委员会中的每个模型,并将训练完成的模型用于分类未标记样本池中的样本。 3 主动学习算法分析 主动学习作为一种新的机器学习方法,其主要目标是有效地发现训练数据集中高信息量的样本,并高效地训练模型。 将非监督学习算法与主动学习相结合,提出高效的查 询方法。 (2)当输入数据的维数很高时,在高维空间进行查询时会面临“维数灾难”问题,因而需要在预处理阶段寻找高效的降维算法[22],减少查询复杂度。
为了解决这个问题,机器学习领域出现了一个叫做主动学习的领域。主动学习是机器学习中的一种方法,它提供了一个框架,根据模型已经看到的标记数据对未标记的数据样本进行优先排序。 使用CellProfiler提取细胞特征——展示如何从生物细胞照片图像中提取形态学特征,以用作机器学习模型的特征。 使用主动学习——展示一个模拟使用主动学习和不使用主动学习的对比实验。 该框架可以轻松地使用不同的主动学习策略。他们的文档也很清晰,所以建议从它开始你的一个主动学习项目。 主动学习与随机学习 为了验证假设,我们将进行一项实验,将添加新标签数据的随机子抽样策略与主动学习策略进行比较。开始用一些相同的标记样本训练2个Logistic回归估计器。 总结 本文展示了将主动学习用于细胞成像任务的好处。主动学习是机器学习中的一组方法,可根据其标签对模型性能的影响来优先考虑未标记的数据示例的解决方案。
为了解决这个问题,机器学习领域出现了一个叫做主动学习的领域。主动学习是机器学习中的一种方法,它提供了一个框架,根据模型已经看到的标记数据对未标记的数据样本进行优先排序。 使用CellProfiler提取细胞特征——展示如何从生物细胞照片图像中提取形态学特征,以用作机器学习模型的特征。 使用主动学习——展示一个模拟使用主动学习和不使用主动学习的对比实验。 该框架可以轻松地使用不同的主动学习策略。他们的文档也很清晰,所以建议从它开始你的一个主动学习项目。 主动学习与随机学习 为了验证假设,我们将进行一项实验,将添加新标签数据的随机子抽样策略与主动学习策略进行比较。开始用一些相同的标记样本训练2个Logistic回归估计器。 总结 本文展示了将主动学习用于细胞成像任务的好处。主动学习是机器学习中的一组方法,可根据其标签对模型性能的影响来优先考虑未标记的数据示例的解决方案。
在下文中,我们介绍了三个面对驾驶任务的主动推理智能体: 第一个使用的是没有认知控制机制 的生成模型(模拟1), 第二个使用的是简单元认知控制模型 (模拟2), 第三个使用的是完整的元认知控制模型 (模拟 图2D展示了主动推理智能体在驾驶任务中所经历的认知冲突程度 。 模拟 2:具有简单元认知控制的主动推理 在这里,我们在图1B所示的主动推理生成模型基础上,增加了一个用于(简单)元认知控制层级 的回路,见图3。 模拟 2 的结果 在此部分,我们使用带有(简单)元认知控制 的主动推理模型来模拟驾驶任务。模拟结果如图4所示。 这可以通过使用标准的主动推理统计学习方法(Binz 等, 2023)或机器人领域的相关方法(Da Costa 等, 2022;Lanillos 等, 2021;Pio-Lopez 等, 2016;Taniguchi
(2) 目标主动搜索,其中发现符合特定标准区域(例如,系统故障模式或特定性能范围)的实用目标需要认知好奇心来探索区域的形状、大小和边界。 Hvarfner 等人(2023)将基于统计距离的主动学习(SAL)准则引入 BO 循环,即使在搜索最优解时也主动学习模型超参数。 在本文中,我们提出实用好奇心:一种源自主动推断(AIF)(Friston,2010;Friston 等人,2017)的混合学习 - 优化范式。 综上所述,我们的主要贡献如下: • 通过主动推断的视角,对各种采集策略提供了统一的观点。 • 提出了一种针对通用混合学习 - 优化问题的实用好奇心范式。 • 在三个具有多样混合学习 - 优化目标的典型现实世界问题类别上进行了全面的实证验证。 2. 预备知识 2.1. 贝叶斯优化 2.2. 贝叶斯实验设计 3.
来源:PKUDAIR本文约2700字,建议阅读5分钟本文介绍了在图神经网络上主动学习的软标签方法。 该论文提出了图神经网络上主动学习的软标签方法,有两个关键创新点:(1)领域专家只判断预测标签的正确性(二元问题)而不是识别确切的类别(多类问题)的轻松查询;(2)提出了轻松查询下软标签主动学习的信息增益传播衡量标准 如何设计在软标签下的图主动学习策略是该论文要解决的问题。 ▲ 图1. 图神经网络有许多变种,比如 GCN [1]、MVGRL [2] 等。 2.2 主动学习(AL) 主动学习通过更好的样本点选择来提高模型的效果和效率。 IGP方法 IGP 是第一个基于图的考虑了轻松查询和软标签的主动学习框架,可以在任何图神经网络模型上运行。
视频概述本视频演示了如何使用Prodigy(一款由spaCy开发团队打造的新一代、基于主动学习的标注工具)来训练一个针对新概念的短语识别系统。 核心命令是 prodigy ner.teach,它启动了一个主动学习循环:初始模型:从一个初始的空白模型或预训练模型开始。 智能建议:Prodigy通过主动学习算法,从无标注数据中挑选出最具信息量的样本供标注。在线学习:标注者的每一次标注都会立即反馈给模型,模型在线更新,从而在后续的样本选择中表现得更好。 用户可以直观地看到模型在训练集上的损失下降以及关键指标(如精确率、召回率)的变化趋势,这有助于判断模型是否在有效学习。 关键技术与资源Prodigy: 一个高效的主动学习标注工具。spaCy: 用于高级自然语言处理的Python库。主动学习: 一种机器学习策略,模型主动选择最有价值的数据让人类标注,从而最大化标注效率。
、讨论,一起学习和交流主动学习的技术。 Awesome Active Learning: https://github.com/baifanxxx/awesome-active-learning Note:前 1、2、3 节都是一些主动学习基础内容 有大量的无标签医疗数据,需要从中选择有价值的进行标注,例如从视频数据(胃肠镜视频)标注图像进行检测等; 2. 在获取过程之前,LADA 考虑 1)选择未标记的数据实例和 2)通过数据增强生成的虚拟数据实例。 从主动学习基本理论和问题出发,完善和改进; 2. 与其他 learning 方法或概念结合,改进主动学习或该方法,例如半监督、域自适应、知识蒸馏和强化学习等等; 3.
©作者 | 白帆 学校 | 香港中文大学研究方向 | 机器人、医疗图像、主动学习 一、前言 我将我对主动学习的理解和最新研究的感悟都整理为这篇文章,主要目的是供大家参考、讨论,一起学习和交流主动学习的技术 Awesome Active Learning:https://github.com/baifanxxx/awesome-active-learning Note:前 1、2、3 节都是一些主动学习基础内容 有大量的无标签医疗数据,需要从中选择有价值的进行标注,例如从视频数据(胃肠镜视频)标注图像进行检测等; 2. 在获取过程之前,LADA 考虑 1)选择未标记的数据实例和 2)通过数据增强生成的虚拟数据实例。 从主动学习基本理论和问题出发,完善和改进;2. 与其他 learning 方法或概念结合,改进主动学习或该方法,例如半监督、域自适应、知识蒸馏和强化学习等等;3.
clf2 = LogisticRegression() chosen_ids = np.random.choice(range(len(x)),50,replace=False) clf2.fit(x[ 非也,我们还有主动学习。 主动学习 何谓主动学习?这里我采用一种通俗的讲法: 想象你面对百万大军,要想打败他们未必需要将其全部剿灭,有时只需要斩其上将首级即可。 主动学习做的,就是帮助我们找到那个“上将”,解决重点问题,达到事半功倍的效果。看下面的图: ? 左图中红绿代表两种数据。现在我们只能标注其中有限个数据来训练分类器。 而右图就是主动学习方法找到的标注点,因为这些点几乎构成了完美分界线的边界,所以使用与中图同样的样本数,它能够取得90%左右的准确率! 那么我们怎么找到这些关键的点呢? 不过进行多次实验也可以看到,两种主动学习方法利用同样多的样本,却能够达到接近90%的准确率。确实比RS更胜一筹,我们可以使用这个技术来降低达到一定准确度所需的标注量。
然而,存在一些“已知的未知问题”限制了主动深度学习在药物发现中的广泛应用:(1) 最佳的化学空间探索计算策略是什么;(2) 主动学习与传统的、非迭代的方法相比如何;(3) 在药物发现中典型的低数据情境下应如何使用主动学习 主动学习筛选程序包括以下四个迭代步骤: 1. 训练:机器学习模型使用每轮中的所有标记数据进行训练。训练后的模型用于对筛选库中未标记的分子进行生物活性预测。 2. 图 2 作者发现,初始分子的多样性(即“先天”)对后续获取的分子多样性或命中检索的影响不大(图2),这主要是由于主动学习的选择(即“后天”)。 主动学习相比一次性筛选可增加2到4倍命中效果,特别是在多次迭代时,基于相似性的获取方法也表现出较高的效果。 突破低数据主动学习的边界 为了极限测试主动学习在低数据情境下的表现,作者减少了初始训练分子的数量,使用2到64个分子作为随机初始集合,结合基于互信息的最佳获取函数和ECFP或图神经网络。
自监督学习 (SimSiam) + 主动学习 (AL) 通过自监督的预训练强化主动学习框架图 该框架包括3个阶段: 在整个数据集上训练自监督训练。 在主动学习方面,考虑了几种获不同的方法,包括Informativeness[10]和Representativeness[42,40]的方法。 使用SimSiam进行自监督学习 这里可以使用任何自监督学习框架。作者选用的是SimSiam 实验结果 均匀地从所有类中随机选择整个数据集的1%,2%和10%。 从主动学习的角度来看,当标注数据小于1%时,随机抽样优于AL。 上图为CIFAR-100在低预算的情况下,自监督的预训练大大减少了所需的标签数量。 两个实验结果都表明:在主动学习框架中,低预算的情况下SimSiam帮助很大。在高预算下,从头训练和SimSiam之间的性能差距缩小了。
一、主动学习提示的基础理论 1.1 主动学习的基本概念 主动学习是一种机器学习范式,其核心特点是模型能够主动选择最有价值的未标记数据进行标注,从而以最小的标注成本获得最大的性能提升。 将主动学习的思想应用于提示工程,就产生了主动学习提示这一新的研究方向。 主动学习提示的基本工作流程包括: 初始提示设计:设计一个初始的提示模板。 候选提示生成:基于初始提示,生成多个候选提示变体。 二、主动学习提示的核心技术 2.1 提示变体生成技术 提示变体生成是主动学习提示系统的第一步,其质量直接影响后续的优化效果。 三、主动学习提示的实施策略 3.1 系统架构设计 主动学习提示系统的架构设计是实施过程中的关键环节。 七、主动学习提示的未来发展趋势 随着人工智能技术的不断发展,主动学习提示作为一种新兴的技术方向,也在快速演进。
本期分享的内容不是课堂上讲的,而是给了踮一踮脚能做出来的超纲练习题,启发学员主动学习,而不是一味等待投喂。 系统学习+主动探索,是最舒适的入门学习方式! > table(exp$X %in% soft2$ID) TRUE 1000 > table(soft2$ID %in% exp$X) TRUE 1000 > identical(soft2$ID ,exp$X) [1] FALSE > soft3=soft2[match(exp$X,soft2$ID),] > identical(soft3$ID,exp$X) [1] TRUE exp$X=soft3 最后去掉多余的x这一行并赋值给新的表达矩阵exp2.exp2就是我们要的表达矩阵。 > exp1=exp[! duplicated(exp$X),] > rownames(exp1)=exp1$X > exp2=exp1[,(-1)] > View(exp2) 「第二种解法多个探针对应同一个基因时,取平均值」
在这项工作中,作者利用自动机器学习(Automated machine learning, AutoML)和主动学习(Active Learning, AL)的技术开发了一个高效的自动化工作流程,只需要数百次 图1 SARS-CoV-2 PLpro及其抑制剂的结构 SARS-CoV-2木瓜样蛋白酶(papain-like protease, PLpro)是设计COVID-19抗病毒药物最有吸引力的药物靶点之一 2 模型 图2 模型流程 2.1 主动学习周期 两个主要的计算模块: (1)AutoML模块。负责根据第二个计算模块提供的标记数据开发ML模型。 (2)TI RBFE模块。 2.2 自动化机器学习模块 使用基于先验选择的ML方法(如神经网络)和分子表征(如配体-蛋白质相互作用指纹)构建的ML模型可能会导致大量的模型偏差和样本选择偏差。 4 总结 在这项工作中,作者提出结合自动机器学习(Automated machine learning, AutoML)和主动学习(Active Learning, AL)的方法对配体进行RBFE计算,
,平时看不到他在主动学习,另一种是普罗大众,除了认证听老师上课,还利用课余时间进行复习和练习。 大多数的人都因为没有主动学习而被高考成绩限制,无法接受更高等的教育,也就是说大部分的人并非天才,然后主动和被动学习就是普罗大众之间的区别,只有主动学习才能与他人拉开差距,我相信,没有人会认为自己主动了, 对于关注信安之路的所有朋友而言,我认为都是想要了解信息安全这个行业,想要在信息安全这个行业扎根,一定是有所求的,所以对于为什么选择信息安全这个行业,这里就不再讨论,今天就来聊聊信息安全技术的主动和被动学习的方式 ,该如何选择适合自己的学习方式。 信息安全行业随着互联网的发展在不断变化,没有一个拥抱变化,快速学习的能力,是无法跟上时代,迟早是会被淘汰的,所以作为信安从业者,更要化被动为主动。
开发者可自定义输入数据流并设计简易标注界面,其核心能力包括:将复杂标注决策分解为系列二进制选择与某自然语言处理库实现无缝集成在主动学习框架中支持实时模型更新策略通过配方脚本(GitHub开源)实现工作流定制该方案通过动态调整模型训练流程
通过使用主动学习(AL)技术可以缓解这个问题,这种技术在给定的注释预算下,允许选择在微调产生的最大精度的数据子集。 利用这一观察结果,结合两个AL框架提出了CD度量:基于核心集的策略和基于强化学习的策略,用于主动帧选择。我们在语义分割、目标检测和图像分类的基准数据集上进行了广泛的经验评估,主动学习的结果SOTA。 消融研究证明了使用情境多样性进行主动学习具有明显优势。 主要框架及实验结果 ? ? ? ? ? ? ? 声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请联系删除。