创科广场|数据不可见保私隐 联邦学习推动基因分析

2022-05-02 12:08

隐私计算有3种主流技术:包括区块链、联邦学习(Federated Learning)和安全多方计算(Secure Multi-Party Computation)。其中「联邦学习」可实现数据隐私计算,保障数据隐私、确保数据安全和符合法规要求下,为机器学习建立模型。

以人工智能来说,必须靠数据的数量来分析内容,不少数据都有隐私保护,尤其医疗数据更受严密法律监管。但一般而言,数据量与模型的质素成正比,数据以孤岛形式分散在不同地点,导致每个模型拥有的数据集太小,直接影响AI模型的预测性能。

联邦学习可将散落不同地点数据,毋须结合于同一地点,形成大数据效果,例如训练AI模型时可用到数据集,却不能看到数据集包含的隐私,达到「数据可用不可见」效果,简来来说联邦学习就是「数据可用不可见,数据不动模型动」。

香港科技园亦与推出了联邦学习以分析散落于不同地点的金融数据,训练出更高性能的模型。而联邦学习亦可应用于生物医学数据,Lifebit Biotech就是利用联邦学习技术让多个团队对生物医学数据可安全存取,而不能看见内容,解决基因组分析敏感数据的难题。

Lifebit刚获了丹麦国家基因组中心(National Genome Center,NGC)为期4年的合约,在丹麦国家超级运算中心安装Lifebit联邦学习「可信研究环境」(TRE)云原生系统 Lifebit CloudOS。

Lifebit CloudOS正是采用联邦学习技术,以解决了基因组学分析一个主要障碍,为了生物数据通常孤立和分散储存加以保护,不可离开数据中心,更无法访问分析,而通过联邦学习在原地(in situ)分析数据,只带走分析的结果,就可增加分析数据量之馀,保护个人医疗数据的隐私。

解决分析敏感数据难题

丹麦NGC为丹麦医疗官方机构,旨在推动丹麦全国的个人化的精准医疗,个人化医疗可按基因组分析,日后制订精准医疗方案,必须知道基因组与疾病之间关系。NGC以数据可开发精准诊断、标靶治疗,并推动丹麦医疗研究工作。上述计画第一阶段内,丹麦国家基因组中心计画在2024年前,招募60000名确诊了癌症、自身免疫疾病和罕见疾病的病人,进行全基因组测序(Whole genome sequencing,WGS)。

Lifebit CloudOS在丹麦超算中心提供的基建,令上述数据可毋须离开高度设防的数据中心,同时可供外间分析,Lifebit CloudOS可让外间研究人员安全存取、查询和分析高度敏感的临牀基因组数据,甚至全球分享数据协作研究,而不外泄私隐。

Lifebit CloudOS联邦学习就是其中最关键技术,NGC可与国际夥伴协作,包括各地的基因组研究中心如Genomics England、France Genomique、Genomic Medicine Sweden,以至其他生物基因库协作研究。

研究机构通过虚拟连接在超算中心内敏感数据集,毋须移动数据情况,在原位以联邦学习与其他地区数据集合并,以提高研究的水平结果。事实上,基因组的数据量直接决定研究质量,以及科学发现多寡,某些情况下每增加10倍病人的数据量,可增加达100倍科学发现,并可更清晰知悉不同数据集之间的真正关联。

Lifebit与多国医疗机构合作以Lifebit CloudOS建立联邦学习分析生物医疗数据,Lifebit刚获本港首个大型基因组测序计画─「香港基因组中心」的4年合约,Lifebit为香港基因组中心部署高度扩展的云架构和高性能运算,快速将原始测序数据转化为临牀诊断及研究结果。香港基因组中心由特区政府资助,并透过与衞生署、医管局及大学合作,招募合资格病人及家属参与「全基因组测序」,日后用于精准诊断及更有效治疗。

關鍵字

最新回应

關鍵字
You are currently at: std.stheadline.com
Skip This Ads
close ad
close ad