2016 年,Google 首次提出了针对移动设备的联邦学习(FL)系统 [1],该系统允许用户形成一个联合体训练得到一个集中模型,而用户数据则安全地存储在本地,这就解决了数据隐私和安全保护问题。 为了满足联邦学习的安全性和隐私性要求,在假设 A 和 B 不允许暴露其原始数据的情况下,需要进一步引入隐私保护方法来计算上述目标函数。作者对逻辑损失函数 l_1 采用二阶泰勒近似进行处理: ? 2.1.3 本文小结 本文提出了一个安全的联邦迁移学习(FTL)框架,引入了同态加密和密文共享两种保护隐私的安全方法。同态加密方法简单,但计算成本较高。 FATE 是由 Webank 的 AI 部门发起的开源项目,旨在提供安全的计算框架来支持联邦 AI 生态系统。它基于同态加密和多方计算(MPC)实现安全的计算协议。 它支持联邦学习体系结构和各种机器学习算法的安全计算,包括逻辑回归,深度学习和迁移学习等。FATE 官方网站:https://fate.fedai.org/。FATE 的整体结构如下。
在近日GDG举办的“AI 隐私保护:探索跨域数据的安全流动”活动中,VMware中国研发云原生实验室资深研究员、联邦学习开源项目 FATE/KubeFATE代码维护者彭麟,分享了云原生联邦学习平台的题目 回放链接请戳 《联邦学习与云原生联邦学习平台》彭麟 人工智能的三大要素分别是算法、算力和数据,但数据的现状并不理想,存在数据孤岛、数据分布不均的问题。 为了解决数据方面的问题,有三种常见的解决方案:生成式对抗网络、迁移学习和联邦学习,此处重点讲解联邦学习。 联邦学习和传统的机器学习相比,传统的机器学习是模型不动、数据动;而联邦学习是数据不动、模型动。 联邦学习又可细分横向联邦学习与纵向联邦学习,分别用于应对两种不同的数据孤岛情况。 数据孤岛情况 1: 样例分散在不同的组织,单个组织样例不足以支持优质训练,适用使用横向联邦学习。 ,分布式系统、分层结构,复杂的企业环境:安全、网络、遗留系统适配问题,引入人工智能的第四个要素——运维。
隐私计算的三大技术流派:联邦学习、安全多方计算、可信计算 1.多方安全计算,由姚期智院士于1982年首次提出,通过设计特殊的加密算法和协议,在无可信第三方情况下的安全计算约定函数问题,近年来,基于同态加密 2.联邦学习,是一种分布式机器学习框架,能够在不需要共享各方原始数据的条件下实现联合建模等计算训练任务,在打破数据孤岛的同时确保数据的安全可控。 根据计算数据集的不同类型可分为横向、纵向联邦学习与联邦迁移学习。 3.可信执行环境,是指运行在可信硬件之上的安全隔离环境,执行经过授权的安全软件,保障关键代码和数据的机密性、完整性不受恶意软件破坏。 八分量的隐私计算系统是基于联邦学习、安全多方计算、可信执行环境、区块链等核心技术自主研发而成,能够为数据交换、数据共享提供隐私保护能力。 在八分量隐私计算系统中, 多方安全计算主要是在保证数据安全的前提下,实现多方数据的联合计算; 联邦学习主要是在多个参与方各自原始私有数据不出各方私有安全边界的前提下,完成联合机器学习任务; 可信执行环境则用于保证在可信硬件构建的安全区域内运行授权程序
1.png 2.png 3.png image.png 5.png 6.png 7.png 8.png 9.png 10.png 11.png 12.png 13.png 14.png 15.png 16.png 17.png 18.png 19.png 20.png
产业互联网时代, 在应用AI挖掘大数据潜在价值的趋势下, “联邦学习”成为推动AI落地的关键能力之一。 企业应该如何应用“联邦学习”技术, 打破“数据孤岛”,助力业务服务创新创效? 一张图,带您了解腾讯安全联邦学习应用服务 长图final.png
谷歌于2017年提出联邦学习的训练方法,发表了相关博客链接[1],从[1]这篇文章的标题《Federated Learning: Collaborative Machine Learning without Centralized Training Data》可以看出来谷歌对于联邦学习的基本定义是,无需通过中心化的数据,即可训练一个机器学习模型。 谷歌提出的联邦学习思想中,可以参考另一个介绍文章[2],给出的例子是toC的训练,例子中数据保存在个人移动设备中(手机),不需要数据上传,大体的思路是: ? 谷歌提出的toC应用中,每个训练终端相当于有且只有一个用户(因为是手机嘛),但是用户特征高度重叠(例如都是搜索引擎点击记录),这种情况下被[4]称为横向联邦学习。 这种情况下被文献[4]称为纵向联邦学习。
联邦学习是最有前途的机器学习技术之一,可帮助克服数据孤岛,加强数据隐私和安全的同时仍遵守例如GDPR等法律法规。 由于《数据安全法》、GDPR等法律法规等限制,这两家企业不能简单地合并他们的数据。联邦学习可以通过在加密机制下交换参数来创建全局模型,同时确保遵守数据隐私法律。 利用联邦学习和多组织数据构建安全模型,数据可以跨组织互联互通,形成维度重叠的智能安全网络。借助云计算和大数据分析,智能安防系统不断进行事后总结和自我学习。 对来自视频、传感器和信息软件的联邦数据进行收集、整理和分析,以提供更安全、更准确的风险预测服务。 联邦学习的多源数据融合机制能够包括交易数据、税收、声誉、金融、无形资产和其他小微企业数据,以帮助金融机构在不损害数据隐私或安全的情况下丰富其特征空间。
8日下午,星云Clustar受邀出席同期举办的「2021 WAIC· 隐私计算学术交流会」,并进行了基于联邦学习的安全矩阵分解框架的论文分享。 论文分享的题目是《Secure Federated Matrix Factorization》,该论文基于联邦学习环境,首创性地提出了名为「FedMF」的安全矩阵分解框架。 据悉,FedMF已经成功落地于全球首个工业级联邦学习开源框架FATE。 星云Clustar合作设计了基于FedMF安全矩阵分解框架的联邦推荐算法(FedRec),该算法在FATE框架中的有效运用使得联邦学习在推荐系统的应用更加明确化。 更多安全定义。目前我们用了经典的horizontal联邦学习安全定义,这个定义架设了参与方的诚实性,以及服务器的honest-but-curious。
## 联邦学习数据交易平台的安全性实验在联邦学习数据交易平台的安全性实验中,模拟恶意攻击场景以展示方案的安全性是非常重要的。 例如,在基于图像数据的联邦学习中,恶意节点可能修改图像的像素值、标签信息等,使其与真实数据分布不一致,从而干扰模型训练。 **攻击模拟** - **模型参数干扰** - 恶意节点在参与联邦学习模型训练过程中,故意上传错误或恶意修改的模型参数。 对于信用评分较低的节点,可以降低其在模型聚合中的权重,甚至将其排除在联邦学习过程之外,以减少其对全局模型的干扰。 在这个环境中,模拟多个数据供应方(Dss)和数据需求方(Dds)之间的联邦学习数据交易过程。
图片3.png 腾讯安全联邦学习应用服务的优势是什么? 保护隐私、大数据分析能力强、接入便捷,模型高效 作为“PaaS+SaaS级”联邦学习产品,腾讯安全联邦学习应用服务具备安全性高、大数据分析能力强、接入便捷、高效率和成本低的四大优势: 首先,充分满足企业机构隐私保护和数据安全的需求 ,轻量易用; 最后,腾讯安全联邦学习在联合建模过程中的通信、稳定性上具有优势。 图片4.png 腾讯安全联邦学习应用服务的适用场景是? 金融风控、营销风控与智能终端应用 目前,腾讯安全联邦学习应用服务适用于金融风控、营销风控、智能终端等领域。 目前,腾讯安全联邦学习应用服务与银行、消金、互金等金融机构广泛开展合作,助力金融大数据信贷风控业务。 图片5.png 在营销风控领域,腾讯安全研发了航空票务营销风控场景联邦学习应用服务。
引言 在大数据时代,数据隐私和安全成为了一个日益重要的议题。 为了解决这些问题,联邦学习(Federated Learning, FL)应运而生,它允许各个数据拥有方在不共享原始数据的前提下,共同训练一个机器学习模型。 联邦学习的定义与原理 联邦学习是一种分布式机器学习范式,其核心思想是利用分散在各参与方的数据集,通过隐私保护技术融合多方数据信息,协同构建全局模型。 联邦学习的用例 联邦学习因其独特的隐私保护特性,在多个领域得到了广泛应用,如: 手机输入法:利用用户的输入数据优化下一个词预测模型,同时保护用户隐私。 联邦学习示例与代码 以下是一个简化的联邦学习示例,使用Python和PyTorch框架模拟联邦学习的训练过程。
随着大数据、边缘计算、大型云计算平台和各种开源框架的发展,机器学习等人工智能技术以前所未有的速度应用到各个行业,人工智能技术带来了新的挑战,数据的隐私和安全引起了全世界的重视。 而联邦学习提供了一种解决数据安全和“数据孤岛”问题的可行性方向。 纵向联邦学习训练示意图 联邦学习有如下几点优势: 1. 数据隔离,数据不会泄露到外部,满足用户隐私保护和数据安全的需求; 2. 并且越来越多的人关注到联邦学习这个新兴技术,希望系统地掌握联邦学习的原理,并在产业应用中解决具体问题。 《联邦学习技术与实战》正是在这样的背景下撰写和出版的。 联邦学习像“数据孤岛”之间的特殊桥梁,通过传输变换后的临时变量,既能实现模型效果提升,又能确保隐私信息的安全。
而联邦学习提供了一种解决数据安全和“数据孤岛”问题的可行性方向。 纵向联邦学习训练示意图 联邦学习有如下几点优势。 1. 数据隔离,数据不会泄露到外部,满足用户隐私保护和数据安全的需求; 2. 并且越来越多的人关注到联邦学习这个新兴技术,希望系统地掌握联邦学习的原理,并在产业应用中解决具体问题。 《联邦学习技术与实战》正是在这样的背景下撰写和出版的。 ▊《联邦学习技术及实战》 彭南博 王虎 著 保护隐私安全,连接数据孤岛 本书针对产业界在智能化过程中普遍面临的数据不足问题,详细地阐述了联邦学习如何帮助企业引入更多数据、提升机器学习模型效果。 联邦学习像“数据孤岛”之间的特殊桥梁,通过传输变换后的临时变量,既能实现模型效果提升,又能确保隐私信息的安全。
产业公开课头图.jpg 腾讯安全「产业安全公开课」 新一轮的公开课课程表来了! 本次「产业安全公开课」金融安全专场中,邀请了来自腾讯安全和深信服的三位安全专家,分别对金融领域中的非接触式信贷安全、数据保护和融合、银行数字化转型等方面进行金融安全解决方案的分享和实用防护的建议。 产业公开课1.jpg 课程前瞻 ▼ 大数据时代,如何使用 联邦学习进行安全合规的数据融合? 本课程将为用户详细介绍联邦学习技术如何连接数据孤岛、进行安全有效的数据融合,并从行业痛点、基本技术和应用服务等维度全面解读腾讯安全的联邦学习产品和实用建议。 银行如何快速完成信贷数字化建设? 腾讯安全联合生态合作伙伴共同发起「产业安全公开课」,定期邀请安全专家以线上、视频课程的形式,解读产业数字化转型中最受关注的安全问题,积累多年的安全经验、饱经实战检验的解决方案与最佳实践向金融、零售、政务
联邦学习应运而生,通过这一新兴技术,可以在确保用户隐私和数据安全的前提下,各组织间交换模型信息的过程被精心地设计和全程加密,使得没有组织能够猜测到其他任何组织的隐私数据内容,但却实现联合建模的目的。 PowerFL是腾讯TEG自研的联邦学习平台,已经在金融云、广告联合建模等业务场景中开始落地,并取得了初步效果。 计算框架:在计算和数据资源之上,PowerFL实现了一套针对联邦学习算法的计算框架,与传统的机器学习框架相比,这套框架重点解决了联邦学习算法和应用在实践过程中最常见的几个难点:1)安全加密:PowerFL 产品交互:从终端用户的角度,PowerFL作为联邦学习的应用产品,既支持以REST API的形式调起联邦任务,也支持各模型参与方在联合工作区上协同工作,以拖拽算法组件的方式来构建和配置联邦任务流,并进行用户 应用场景:在完善了上述联邦学习的基础设施之后,PowerFL可以在安全合规的前提下解决金融风控、广告推荐、人群画像、联合查询等多个应用场景下由于数据隔离和碎片化造成的“数据孤岛”问题,真正赋能遵守隐私规范的人工智能和大数据应用
分享一种实现联邦学习的方法,它具有以下优点: 不需要读写文件来保存、切换Client模型 不需要在每次epoch重新初始化Client变量 内存占用尽可能小(参数量仅翻一倍,即Client端+Server 懒得看讲解的可以直接拉到最后的完整代码章节,共有四个代码文件,运行python Server.py即可以立马体验原汁原味的(单机模拟)联邦学习。 咱没那么多显存TAT 概括一下:联邦学习的Clients,只是普通TF训练模型代码上,加上模型变量的值提取、赋值功能。 也反面证明了,Non-I.I.D.确实是联邦学习的一个难题。 前者是计算梯度,后者是把梯度按照学习率更新到变量上。把梯度拿到后,交给Server,Server返回一个全局平均后的梯度再更新模型。
对于数据的纵向划分,有很多机器学习算法,如分类,统计分析,梯度下降,安全线性回归,数据挖掘。 3.1.3 联邦学迁移习 联邦迁移学习适用于两个数据集的用户特征和用户都重叠较少的情况。 在一些论文中,联邦学习和区块链相结合,基于区块链交换和更新每个设备的模型数据,最后,在区块链协议的保证下,对模型参数进行安全聚合。 总结 联邦学习作为一种可以实际应用的模型,在强调数据隐私和数据安全的同时,也被越来越多的研究者和企业所接受。 另一方面,当用户没有足够的数据标签学习时,联邦学习不仅可以为用户提供安全的模型共享机制,还可以将模型迁移到特定的任务中,解决数据标签不足的问题。 相信在不久的将来,联邦学习可以为更多的应用提供安全、共享的安全服务,促进人工智能的稳定发展。
在2019年大火的联邦学习,最新的研究进展怎么样了? 文 | 蒋宝尚 编 | 贾 伟 联邦学习无疑是近期 AI 界最火爆的技术范式之一,在过去的2019年,涌现了大量联邦学习相关研究。 值得注意的是,这个定义完全将联邦学习与完全去中心化的学习技术做了区分。 跨设备联邦学习设置:上图展示了联邦学习训练的生命周期,以及联邦学习系统中的多个参与者。 在本节中,论文介绍了联邦学习的分布式特性、体系结构设计和数据约束打开了新的失败模式和攻击面。此外值得注意的是,在联邦学习中保护隐私的安全机制可能会让检测和纠正变得十分困难。 探究隐私与稳健性之间的张力:往往使用安全聚合技术来加强隐私保护,但通常会使防御敌意攻击变得更加困难,因为中央服务器只看到客户端更新的集合,因此,研究在使用安全聚合时如何防御敌意攻击非常重要。 联邦学习为公平性研究提供了几个思考,其中一些扩展了非联邦环境中先前的研究方向,另一些则是联邦学习独有的。
传统的集中式学习方法需要将数据集中存储在一个服务器上进行训练,这种方法带来了许多挑战,例如隐私问题、数据安全以及传输带宽的高需求。为了解决这些问题,边缘计算和联邦学习逐渐被提出并应用于机器学习场景中。 这篇博客将深入讨论边缘计算和联邦学习的基本原理、应用场景以及如何结合二者来实现更加智能和安全的数据处理。 2. 联邦学习概述 联邦学习是一种新兴的分布式机器学习方法,旨在将数据保存在本地设备上,仅共享模型更新(如梯度),而不是原始数据。联邦学习的核心目标是通过协作学习的方式保护用户隐私。 边缘计算与联邦学习的结合 边缘计算与联邦学习的结合可以解决许多传统集中式学习中存在的问题。在这种架构中,联邦学习可以利用边缘设备来进行本地化训练,而边缘计算可以为联邦学习提供更高效的数据处理能力。 结论 边缘计算和联邦学习为机器学习提供了一种新的范式,使得数据处理更加高效、安全。在这种分布式学习方式下,数据隐私得到了更好的保护,实时性也得到了提升。
哈尔滨工程大学 区块链讨论课 2018065124 杨儒浓 1.什么是联邦学习 也许很多人从未听说过联邦学习是联邦学习?甚至从词义本身也无法得知是何种领域的技术。 关于联邦学习的定义,可以理解为是在保证数据隐私安全及合法合规的基础上,利用各个节点掌握的数据实现共同建模,提升AI模型的效果。 这样的共同建模需要满足以下三大前提: 1.双方均获得数据保护 2.共同提升模型效果 3.模型无损失 3.联邦学习分类 联邦学习依据分类方式划分有三种方式,分别为横向联邦学习(特征对齐的联邦学习),纵向联邦学习 鉴于目前的联邦迁移学习理论还不够成熟。下文中,我将当今最常用的纵向联邦学习来解释联邦学习在生活的应用。 4.横向和纵向联邦学习 4.1 横向联邦学习 横向联邦学习的特征便是横向划分,也就是联合多个参与者的具有相同特征的多行样本进行联邦学习,即各个参与者的训练数据是横向划分的。