进而,明确隐私计算分别与隐私和计算之间的关系,即隐私计算是为了实现个人隐私保护而进行的计算还是在实现了隐私保护的前提下进行的计算?最后,才是隐私计算涉及的技术和方法。 1. 什么是隐私? 例如电子邮件、即时通信的内容等,这些工具本身并不是隐私,只是其中记载并反映出来的信息才是隐私。 2. 什么是隐私保护? 在数学上,差分隐私算法可以定义如下: 如果对于所有数据集,D1和 D2最多在一个元素上不同,并且所有的 S是Range (M) 的子集,在随机函数 M 得到了 ε 的差分隐私。 因此: Pr[M(D1) ε S] ≤ exp(ε) x Pr[M(D2) ε S] 数据集 D1中管理员输出的 M (D1)分布与数据集 D2中的 M (D2)几乎相同,数据集 D1和 D2只有一个个体的记录不同 ,而 M 是保证 ε微分隐私的随机化算法: ε 决定了两个数据集 D1和 D2的不可区分性,即对两个数据库集的查询响应偏差由 ε 决定。
什么是隐私计算 从20世纪70年代一直到近年,隐私计算交叉融合了密码学、人工智能、计算机硬件等众多学科,逐渐形成以多方安全计算、联邦学习、可信执行环境为代表,混淆电路、秘密分享、不经意传输等作为底层密码学技术 隐私计算分类 从技术角度出发,隐私计算是涵盖众多学科的交叉融合技术,目前主流的隐私计算技术主要分为三大方向:第一类是以多方安全计算为代表的基于密码学的隐私计算技术;第二类是以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术 ;第三类是以可信执行环境为代表的基于可信硬件的隐私计算技术。 图2 联邦学习技术框架 如图2所示,从底层硬件来说,联邦学习一般以通用硬件作为底层基础设施。 从算法构造来说,常应用同态加密、差分隐私技术以及包括基于秘密分享、不经意传输、混淆电路等密码学原理的各类多方安全计算协议和其它用于保证隐私计算的密码学技术来提升安全性。
图1 隐私信息检索技术应用示例漫画 隐私信息检索(Private InformationRetrieval – PIR,也叫匿踪查询)是安全多方计算中很实用的一项技术,用来保护用户的查询隐私。 三、3类场景隐私信息检索方案 为了加强保护用户查询隐私,使得查询条件和查询结果仅查询用户可知,安全多方计算中的PIR技术应运而生。 3.2基于同态加密的PIR实现 基于同态加密的PIR实现过程如图5所示,此处采用paillier加法半同态加密算法[2],paillier同态加密算法计算过程参见文献2,此处不赘述,但强调3个paillier n次公钥解密n次对称加密 基于同态加密PIR 同态加密 n+1条同态密文 是 3n次同态加密 Keyword-PIR 多项式插值;同态加密 n+2条同态密文 否 5n次同态加密2次多项式构造 在计算开销上 可以明显比对出前两类PIR方案在计算开销和网络开销上的差异。 五、总结 本文介绍了安全多方计算中很实用的一类方案——隐私信息检索方案,此类方案可在保护用户隐私的前提下,实现多方数据安全查询。
2. 联邦学习要点 联邦学习的特点是保持了原始数据去中心化和通过聚合进行学习。 2. 模型开发和评估 与任何机器学习任务一样,选择正确的模型结构和超参数(学习率、批量大小、正则化)对于机器学习的成功至关重要。 值得注意的是,步骤2中的所有工作对参与训练和评估的设备用户体验没有影响; 使用联邦学习进行训练的模型不会让用户看到预测,除非他们完成了部署步骤。 例如,密集计算可能只在设备空闲、网络空闲上时执行。 这些工作流程为构建可伸缩的基础设施和 API 是一个重大挑战。 3. 联邦计算中的隐私保护 联邦学习提供了各种开箱即用的隐私优势。 ——每个客户端的 O (log n + l)通信,其中 n 表示用户数量,l 表示向量长度,在广泛的应用中,小常数产生的通信量不到聚合通信量的两倍; 计算效率——每个客户端的 O (log2n + llogn
隐私数据计算当今最具创新性的数据驱动产品和解决方案往往需要处理隐私数据。如何在使用敏感数据的同时保护数据主体、所有者或用户的隐私信息不被泄露,成为一个关键问题。 两种隐私保护技术安全多方计算(MPC)MPC允许多方在不公开各自私有数据的情况下,共同计算一个涉及所有数据的功能。 技术对比特性 MPC DP 隐私保证 仅泄露计算结果 相对轻量 技术局限MPC的挑战:通用协议通信复杂度高函数设计需谨慎避免边缘情况泄露可能被辅助信息反向推导DP的限制:必须添加噪声对异常值敏感的函数难以兼顾隐私与精度主要适用于数值型统计计算融合应用在某些场景下可结合两种技术优势 :使用MPC计算差分隐私近似函数,既能获得MPC的输入保护,又能享有DP的抗辅助信息攻击特性。
本文的内容为基于 《隐私计算FATE-概念与单机部署指南》中部署的环境。 namespace": "experiment", "partition": 10, "schema": { "header": "y,x0,x1,x2, 准备dsl文件 执行以下命令: cp /data/projects/fate/examples/dsl/v2/hetero_logistic_regression/hetero_lr_normal_dsl.json 详细的配置说明可参考官方文档:https://github.com/FederatedAI/FATE/blob/master/doc/tutorial/dsl_conf/dsl_conf_v2_setting_guide.zh.md 准备conf文件 执行以下命令: cp /data/projects/fate/examples/dsl/v2/hetero_logistic_regression/hetero_lr_normal_conf.json
【引】走近任何一个领域,都会发现自己的渺小和微不足道,会越发地敬畏技术和未知,隐私计算也不例外。 id=3561800)可以对全同态加密有一个概貌,从而了解其脉络方向,进而对隐私计算增加一点点认知。 隐私计算中的完同态加密为加密数据提供量子安全级的计算,保证明文数据及其衍生计算结果永远不会公开,并且在基础设施受到破坏的情况下保持安全,不会被修改和/或破坏。 全同态加密的典型应用场景 随着全同态加密的硬件加速器出现,一些基于全同态加密的可能应用领域包括: 6.1 在整个生命周期内保护数据不被破坏/修改 加密数据上的隐私保护计算保证了数据及其派生计算结果在基础设施受到破坏的情况下不受修改和 与数据库、云计算、 PKI 和人工智能的影响相似,全同态加密将引发机密/隐私信息保护、处理和共享方式的巨大变化,并将从根本上改变基础计算的进程。
基于上文 《隐私计算FATE-模型训练》 中训练出来的模型进行预测任务 关于 Fate 的安装部署可参考文章 《隐私计算FATE-核心概念与单机部署指南》 二、查询模型信息 执行以下命令,进入 Fate retmsg": "success" } 部署成功后返回一个新的 model_version 四、准备预测配置 执行以下命令: cp /data/projects/fate/examples/dsl/v2/
、隐私计算等产品研发。 隐私计算技术发展情况 隐私计算是隐私保护计算(Privacy-preserving Computation)的简称,它能够在保证数据提供方不泄露原始数据的前提下,对数据进行分析、处理和使用,是一个广义的概念 ,已发表近 10 篇隐私计算研究论文,提交了 60 多件隐私计算技术发明专利申请,有多个商用隐私计算和联邦学习的平台产品目前已经通过腾讯云对外开放。 ,是业内首家通过多方安全计算产品测评(信通院 MPC 测评)和首批通过金标委 MPC 测评的产品,截止 2022 年 2 月已服务 150 余家行业客户。 百度智能云还与区块链平台融合,通过将区块链技术纳入云计算与隐私计算的过程,推动隐私计算在各种场景中落地。
为了规范化数据的使用、保障数据的安全,我国在2021年陆续颁发了《数据安全法》和《个人信息保护法》[2][3]。 图2 联邦学习在医疗领域的应用 3.3 药物研发 新药研发领域有一个广为人知的“双十定律”:研发一款新药平均需要花费10亿美元并历时10年之久。 2022年9月21日,绿盟科技与海光公司联合对外发布了隐私计算新产品:“数安湖”隐私计算平台[21]。 “数安湖”隐私计算平台目前覆盖了联邦学习、安全多方计算和可信执行环境三种隐私计算的核心能力,具有数据可用不可见、核心数据“拿不走”、恶意行为“跑不掉”等产品特点。 然而从现实情况调研来看,目前隐私计算在医疗行业的实际应用可谓凤毛麟角,一方面是由于隐私计算属于一个新兴的技术,仅有极少数企业推出了基于隐私计算医疗行业成熟的解决方案;另一方面也是由于实际应用方并不清楚隐私计算能给他们带来的实际价值
2.厂商全景地图爱分析基于对甲方企业和典型厂商的调研以及桌面研究,遴选出在隐私计算市场中具备成熟解决方案和落地能力的入选厂商。3. 入选标准:1.符合金融隐私计算解决方案的厂商能力要求;2.近一年在该市场服务客户数3家以上;3.近一年该市场相关服务收入规模在200万元以上。 符合政府与公共服务隐私计算解决方案的厂商能力要求;2. 近一年在该市场服务客户数3家以上;3.近一年该市场相关服务收入规模在200万元以上。 同态科技的隐私计算一体机是全球首款超高速全同态加密机,集成SM2、SM3、SM4和高速同态加密算法,为数据共享隐私计算提供标准化的数据输出能力,实现免侵入式隐私计算解决方案。 入选标准:1.符合医疗隐私计算解决方案的厂商能力要求;2.近一年在该市场服务客户数3家以上;3.近一年该市场相关服务收入规模在200万元以上。
2 月初,由香港科技大学计算机科学与工程系副教授 & 智能网络与系统实验室主任陈凯教授、加拿大工程院及加拿大皇家科学院两院院士 & 微众银行首席人工智能官杨强教授共同撰写的《隐私计算》中文专著重磅上市, 这本书是为计算机科学、隐私保护、大数据和人工智能相关专业的学生,以及对隐私计算感兴趣的从业者、从事隐私计算研究的研究人员、法律法规制定者和政府监管者编写的。 《隐私计算》系统讲解了隐私计算的基础技术和实践案例,并具有以下 5 大特色。 一是内容系统完整全面。 第三部分介绍基于隐私计算技术构建的隐私计算平台和实践案例,隐私计算平台主要包括面向联邦学习的 FATE 平台和加密数据库的 CryptDB 系统等五个平台,以及隐私计算平台的效率问题和常见的加速策略;实践案例部分主要介绍包括金融营销与风控 此外,《隐私计算》还展望了隐私计算未来的研究和落地方向。在附录中介绍了当前新的中国数据保护法律概况。
作为基于密码学的隐私保护技术的一种替代方案,可信执行环境(Trusted execution environment,TEE)基于硬件安全的 CPU 实现了基于内存隔离的安全计算,可在保证计算效率的前提下完成隐私保护的计算 TEE 与 REE 关系图示 TEE 强大的数据安全和隐私保护能力,使其成为隐私计算主要技术流派之一,比 REE 得到了更广泛的应用。 2. 时间隔离(temporal separation):公共资源区域中的数据不会泄露任意分区中的数据信息。 3. 二、TEE 与其他隐私计算技术 TEE 与安全多方计算、同态加密对比 安全多方计算(MPC)、同态加密是和 TEE 一样各有所长的隐私计算技术。 因此通用型 MPC 协议很难在大规模计算环境下广泛应用,更多是针对特定问题的 MPC 协议,如隐私信息检索(PIR)、隐私集合求交(PSI)等,而同态加密技术则大多仅应用于某些计算协议中关键步骤的计算。
导读:本文将从隐私计算技术的起源开始说起,介绍什么是隐私计算,以及隐私计算的发展脉络,并进一步介绍隐私计算技术的一些应用场景。 ▲图1-1 根据生命周期划分的隐私计算技术 根据数据生命周期,我们可以将隐私计算的参与方分为输入方、计算方和结果使用方三个角色,如图1-2所示。 在一般的隐私计算应用中,至少有两个参与方,部分参与方可以同时扮演两个或两个以上的角色。计算方进行隐私计算时需要注意“输入隐私”和“输出隐私”。 ▲图1-2 隐私计算参与方的三种角色 联合国全球大数据工作组将隐私保护计算技术定义为在处理和分析数据的过程中能保持数据的加密状态、确保数据不会被泄露、无法被计算方以及其他非授权方获取的技术。 如图1-5所示,通过隐私计算中的多方安全计算技术,各金融机构、信息渠道可形成征信系统联盟,各方数据无须离开本地就能提供数据分析服务。 ▲图1-5 基于多方安全计算技术的征信系统联盟 2.
那么,区块链技术是否能够与隐私计算融合呢? 1. 回顾区块链 区块链是将密码学、P2P、智能合约、共识机制等技术进行结合的一个分布式分类账本,这些技术赋予了区块链不可篡改、可追溯、去中心化等特性,在数据结构上是使用哈希指针代替普通指针的链式结构。 区块链采用的是P2P的对等式网络,网络规定每个节点都有同等地位并且相互连接。节点又分为全节点和简约节点,全节点保存了从创世区块以来所有区块的信息,并能实时独立地完成区块链的查询、验证和更新。 2. 回顾隐私计算 隐私计算技术可以归纳为三类: 数据加密与再处理、数据不动而模型动、 通过可信环境进行大数据分析与管理,即联邦机器学习、可信执行环境和多方安全计算三大核心技术。 基于区块链的隐私计算 区块链作为一种能够提供分布式信任机制的关键技术,其与隐私计算技术进行融合可以整合双方的优势,互通有无。
点击“博文视点Broadview”,获取更多书讯 目前,隐私计算平台广泛用到了多种安全技术,包括同态加密、秘密共享、差分隐私、可信执行环境,以及其他一些安全多方计算技术。 文献[1] 对联邦学习模型训练中存在的性能问题进行了全面的探讨,基于这些问题,文献[2~4] 提出了多样的解决方案。接下来,我们对隐私计算的效率问题及相应的解决方法进行详细的介绍。 通过异构计算来解决隐私计算所面临的算力挑战已经成为当前学术界和工业界的一个热门研究方向。下面以联邦学习FATE 平台为例介绍如何通过异构计算加速隐私计算。 (2)平方乘算法和蒙哥马利算法组合优化。FATE 平台中使用的Paillier 加密算法和密态下运算都大量使用模幂运算( )。如何通过异构计算高效地计算模幂运算是提高计算效率的核心。 从Paillier 解密计算公式 式(1) 中不难发现,式(1) 的最终计算结果长度为N 比特,但是中间计算结果长度为 比特,因此需要2 倍显存进行存储。
而隐私计算通过同态加密、多方安全计算、可信执行环境等技术,可以保证数据在使用过程中可用不可见。 值得关注的是,隐私保护是多方面的。 据不完全统计,隐私交易网络包括Layer1隐私协议与Layer2隐私协议,前者类目之下分别诞生了十多个项目,后者的类目下也诞生了3个项目。目前,隐私交易网络大多数处于测试与开发阶段。 2. 隐私计算协议 隐私计算协议,主要从数据的产生、收集、保存、分析、利用、销毁等环节对隐私进行保护,除了常见的DeFi、NFT等场景外,还计划与大数据和AI行业进行深度结合。 而基于区块链的隐私计算与其他类型的隐私计算最根本的不同在于,底层技术区块链是去中心化的,排除可信第三方(TTP)。 隐私应用 隐私应用是指建立在Layer1或Layer2协议之上,为用户或DApp提供不同应用场景隐私保护功能的应用,例如交易、支付、邮件等。 据不完全统计,隐私应用目前也有16个了。
▼ 使用方自主私有计算资源接入,自主管控机器资源和编译环境以及缓存等。 腾讯云代码分析公共计算资源无法满足需要: 1.公共计算资源有限,大量团队共享计算资源,必然会产生任务排队执行。 2.公共计算资源清理,每次执行任务后会重置,不保留任何缓存,下一任务再次初始化拉代码有较高耗时(且环境条件不保障能满足各种项目)。 3.公共计算资源条件,不提供macOS和windows,依赖这些OS的工具只能在自主私有的计算资源中使用,才能获得最佳效果。 4.公共计算资源安全,需要使用编译型工具进行代码分析,因涉及使用方信息安全,安全原则限定只能在私有计算资源中使用。 综上,私有计算资源能提升任务效率,能使用更多工具,私有化计算保障信息安全。
除了依靠法律制度保护隐私,还有必要将隐私保护的数学理论和现实需求相结合,将隐私保护技术和计算任务相结合,在大数据分析和机器学习广泛应用的现实情况下,运用多种技术手段解决隐私泄露问题。 隐私计算便是解决这类问题的核心研究课题。 因此,学习隐私计算的相关技术,建设隐私计算平台和系统,探索隐私计算的相关应用场景变得越发重要。 《隐私计算》新书重磅上市 由香港科技大学计算机科学与工程系副教授、智能网络与系统实验室主任陈凯教授,加拿大工程院及加拿大皇家科学院两院院士、微众银行首席人工智能官杨强教授共同撰写的《隐私计算》中文专著 呈现相对完整的隐私计算知识体系,系统阐述隐私计算关键技术,包括4大发展阶段,5大应用平台,9大落地实践案例。 02. 理论应用价值兼备。 并介绍了基于隐私计算技术构建的五个前沿隐私计算平台,以及平台的效率问题和常见加速策略。 03. 产业实践案例丰富。
为推动隐私计算产业进一步发展,由中国通信标准化协会指导,中国信息通信研究院(以下简称“中国信通院”)、隐私计算联盟主办的2022隐私计算大会于7月13日在北京召开。 观点二:技术体系扩展,隐私计算概念外延深化 早在2016年,李凤华教授等人提出隐私计算是面向隐私信息全生命周期保护的计算理论和方法。 而今,随着隐私保护的需求越来越重视,隐私计算也称隐私增强计算、隐私保护计算,其范畴逐渐扩大。例如,今年美国发布的法案中定义其为减轻数据处理所产生的个人隐私风险的任何软硬件技术。 因此,我们认为广义的隐私计算是涵盖隐私信息全生命周期过程的所有计算操作,包括任何实现隐私保护前提下数据安全流通共享的技术。 根据对市场各厂商、产品的调研,我们发现隐私计算的技术融合已经成为了一大趋势。在一些场景下,技术融合往往能够产生1+1>2的效果,为解决隐私计算的各类技术瓶颈提供了新思路。