創科廣場|數據不可見保私隱 聯邦學習推動基因分析
2022-05-02 12:08
以人工智能來說,必須靠數據的數量來分析內容,不少數據都有隱私保護,尤其醫療數據更受嚴密法律監管。但一般而言,數據量與模型的質素成正比,數據以孤島形式分散在不同地點,導致每個模型擁有的數據集太小,直接影響AI模型的預測性能。
聯邦學習可將散落不同地點數據,毋須結合於同一地點,形成大數據效果,例如訓練AI模型時可用到數據集,卻不能看到數據集包含的隱私,達到「數據可用不可見」效果,簡來來說聯邦學習就是「數據可用不可見,數據不動模型動」。
香港科技園亦與推出了聯邦學習以分析散落於不同地點的金融數據,訓練出更高性能的模型。而聯邦學習亦可應用於生物醫學數據,Lifebit Biotech就是利用聯邦學習技術讓多個團隊對生物醫學數據可安全存取,而不能看見內容,解決基因組分析敏感數據的難題。
Lifebit剛獲了丹麥國家基因組中心(National Genome Center,NGC)為期4年的合約,在丹麥國家超級運算中心安裝Lifebit聯邦學習「可信研究環境」(TRE)雲原生系統 Lifebit CloudOS。
Lifebit CloudOS正是採用聯邦學習技術,以解決了基因組學分析一個主要障礙,為了生物數據通常孤立和分散儲存加以保護,不可離開數據中心,更無法訪問分析,而通過聯邦學習在原地(in situ)分析數據,只帶走分析的結果,就可增加分析數據量之餘,保護個人醫療數據的隱私。
解決分析敏感數據難題
丹麥NGC為丹麥醫療官方機構,旨在推動丹麥全國的個人化的精準醫療,個人化醫療可按基因組分析,日後制訂精準醫療方案,必須知道基因組與疾病之間關係。NGC以數據可開發精準診斷、標靶治療,並推動丹麥醫療研究工作。上述計畫第一階段內,丹麥國家基因組中心計畫在2024年前,招募60000名確診了癌症、自身免疫疾病和罕見疾病的病人,進行全基因組測序(Whole genome sequencing,WGS)。
Lifebit CloudOS在丹麥超算中心提供的基建,令上述數據可毋須離開高度設防的數據中心,同時可供外間分析,Lifebit CloudOS可讓外間研究人員安全存取、查詢和分析高度敏感的臨牀基因組數據,甚至全球分享數據協作研究,而不外泄私隱。
Lifebit CloudOS聯邦學習就是其中最關鍵技術,NGC可與國際夥伴協作,包括各地的基因組研究中心如Genomics England、France Genomique、Genomic Medicine Sweden,以至其他生物基因庫協作研究。
研究機構通過虛擬連接在超算中心內敏感數據集,毋須移動數據情況,在原位以聯邦學習與其他地區數據集合併,以提高研究的水平結果。事實上,基因組的數據量直接決定研究質量,以及科學發現多寡,某些情況下每增加10倍病人的數據量,可增加達100倍科學發現,並可更清晰知悉不同數據集之間的真正關聯。
Lifebit與多國醫療機構合作以Lifebit CloudOS建立聯邦學習分析生物醫療數據,Lifebit剛獲本港首個大型基因組測序計畫─「香港基因組中心」的4年合約,Lifebit為香港基因組中心部署高度擴展的雲架構和高性能運算,快速將原始測序數據轉化為臨牀診斷及研究結果。香港基因組中心由特區政府資助,並透過與衞生署、醫管局及大學合作,招募合資格病人及家屬參與「全基因組測序」,日後用於精準診斷及更有效治療。
關鍵字
最新回應