创科广场|HPE推「集群学习」隐私计算 分散架构胜联邦学习

2022-05-09 09:15

不少数据都是在边缘位置产生,以往分析这些数据,或建立人工智能模型,一般须送往中央伺服器处理。但数据从多个点传送往中央伺服器,往往引起延误,部分数据也有保护私隐考虑,传送过程亦有外泄的风险。

数据分散往往限制数据可访问性,令采集和整合困难,加上数据的安全分类和拥有权各异,部分更涉及个人敏感资料,受法例所规管,部分涉及私隐保护和管治,尤其是医疗数据,部分更不能离开原有储存位置,限制了数据的可用性。

隐私计算炙手可热

近年炙手可热的隐私计算(Privacy computing),就是在不泄露各自数据的前提下,通过协作方式对数据进行机器学习。

「隐私计算」目标是确保在不泄露原始数据的情况下,进行一系列分析计算,只取走成果又保留数据隐私,大大增加数据可用性。

隐私计算有3种主流的技术,包括了区块链、联邦学习(Federated Learning)以及安全多方计算(Secure Multi-Party Computation)。

香港的金融机构正以联邦学习,实现「数据可用不可见」以及「数据不动模型动」的隐私计算。然而,联邦学习必须部署中央伺服器,仍有不少限制。

HPE研发组织惠普实验室(Hewlett Packard Labs)开发HPE「集群学习」(HPE Swarm Learning)人工智能方案,在无损隐私情况下分享数据,统一人工智能模型学习成果,未来有机会挑战联邦学习。

集群现象自行协调

集群(Swarm)是指一种自然界现象,生物依据相邻同伴状态决定本身状态,完全毋须中央统筹自行协调,最典型例子包括外观上看似一群实体聚集一起兜圈或朝特定方向行动的动物或昆虫、鸟类飞行、鱼类群游、水生动物等。

  现时,大部分人工智能模型训练,需将数据集中到中央伺服器,再合并数据集处理。

  然而数据在边缘产生,将大量数据来回传送至中央伺服器,成本高昂之馀也缺乏效率。

  联邦学习的概念是数据不动,而模型在动,必须有托管者(Custodian)中央伺服器存放了深度学习的模型,移动到数据处进行训练,所谓「数据不动模型动」,所以中央伺服器须与数据有密集的通讯而影响了效率,联邦学习也采用星状的网络架构,可能受攻击瘫痪,一旦中央伺服器失效,也影响系统运作。

集群学习的概念与联邦学习差不多,在边缘或者数据储存处训练模型,只要取走分析成果,只分享数据成果,毋须分享数据本身。

「集群学习」与「联邦学习」一样,可使用分散数据,以数据不动模型动以训练模型。集群学习最特别之处,则以区块链科技保护私隐和控制,免除了以中央伺服器管理,省却了联邦学习,中心伺服器和数据之间频繁互动。

加上区块链以去中心化的点对点(P2P)网络协定设计,可改善网络效率,P2P免除单点故障(Single point of failure),而违反区块链智能合约的成员,马上被摒除集群外,避免了攻击事故。

集群以区块链建立

区块链以授权区块链(Permissioned Blockchain)建立,各成员须获授权才加入,动态挑选Leader,负责打包组成区块并将区块上链。

HPE集群学习所分享,只是学习成果,键上成员可运用成果结果,又无损彼此私隐;另一个优点为消除偏差,提高模型准确度 。

集群学习不但可以更快分享模型训练的成果,运算比联邦学习更分散,更安全和具灵活性,类似反诈骗AI模型,数据分散在全球不同的位置,更新诈骗模型又须分秒必争,时刻与罪犯周旋,集群学习也具更多优势。

美国研究侦测诈骗图像的TigerGraph采用HPE集群学习,与本身分析产品结合,加强快速侦测信用卡异常交易活动,方案就是采用全球多间银行金融数据,配合训练机械学习模型,以提高准确度。

另外,医院也可以集群学习,分析不同来源的影像纪录、电脑扫描、磁力共振,以及基因等数据归纳学习成果,并与其他医院分享,改善对疾病诊断能力,保护病人资料。

德国亚琛工业大学(University of Aachen)附属医院的癌症研究人员研究组织病理学,以处理图像时应用人工智能,预测可能导致细胞癌变基因变异,加快直肠癌的诊断。

關鍵字

最新回应

關鍵字
You are currently at: std.stheadline.com
Skip This Ads
close ad
close ad