国产人与动人物a级毛片_免费看黄色视频的网站_国产亚洲视频精选_精品偷自拍另类在线观看

心肺復蘇模型

斯坦福大學將差分隱私AI模型訓練提速10倍,將用于新冠醫(yī)學影像!

斯坦福大學將差分隱私AI模型訓練提速10倍,將用于新冠醫(yī)學影像!

發(fā)布日期:2022-03-11 作者:WLT 點擊:

作者|圖表核心

更快更早地診斷疾病,開發(fā)定制藥物,研發(fā)新藥:人工智能在醫(yī)療領域潛力巨大,可以顯著提高患者的治療效果,挽救生命,幫助世界各地的人們保持健康,延長生命。

進展迅速,并產生了重大影響。這反過來對用于訓練人工智能模型的患者敏感數據的隱私和安全提出了新的挑戰(zhàn)。誠然,從公眾、醫(yī)學社區(qū)到政府層面對這個問題的討論越來越多,但我們顯然需要研究和改進人工智能技術,以更好地保護數據隱私。

目前,斯坦福大學醫(yī)學院的研究人員在使用差分隱私這一保護敏感數據的關鍵方法方面取得了重大突破。通過Graphcore IPU,斯坦福團隊可以將具有差分隱私的人工智能的訓練速度提高10倍以上,并將這項被認為太難被廣泛應用的技術變成現實世界中的實用解決方案。

在使用非隱私敏感的訓練數據證明其應用后,斯坦福團隊與Graphcore合作,正計劃將其技術應用于新型冠狀病毒的胸部CT圖像,旨在揭示關于這種持續(xù)影響全球人民正常生活的病毒的新見解。

人工智能中的數據隱私:挑戰(zhàn)

在人工智能中使用敏感的個人數據將帶來許多挑戰(zhàn),但兩個最重要的挑戰(zhàn)是維護數據主權和防止識別個人。這兩種情況都有可用的、成熟的技術方案,斯坦福大學的研究讓這兩種方案更具可行性。

2

力:聯邦學習。

使用來自代表世界各地不同人群的許多機構和提供商的數據集的大量和多樣化的患者數據進行訓練的模型更強大,更不容易出現某些類型的偏見,并且最終更有用。

標準的機器學習方法需要集中數據進行整理。即使我們試圖通過刪除患者的身份信息來匿名化數據,也需要將這些信息傳輸給第三方研究機構和組織,這已被證明是一個主要問題。事實上,要求監(jiān)管將患者數據保留在數據采集管轄范圍內的呼聲越來越高。

學習可以提供部分答案,因為它允許人工智能模型在匿名患者數據上進行訓練,而無需集中這些數據。相反,開發(fā)中的模型被發(fā)送出去,并根據本地數據進行訓練。

雖然聯合學習是一項有價值的技術,但最近的研究凸顯了一個問題,即通過對來自訓練良好的模型的數據進行推理來重新識別匿名健康信息的能力,潛在地將其與個體相關聯或恢復原始數據集,將帶來隱私漏洞。

由于這個原因,聯邦學習的使用也依賴于促進差分隱私的應用。

3差別隱私

通過訓練聯邦學習模型,差分隱私使得對敏感數據的保護更進一步,沒有人可以推斷訓練數據或從中恢復原始數據集。

差分隱私隨機梯度下降(DPSGD)通過剪切和扭曲單個訓練數據項的梯度來給匿名患者數據添加噪聲。增加的噪聲意味著反對者不太可能找到所使用的個體患者數據或恢復用于訓練模型的原始數據集。

差分隱私隨機梯度下降(DPSGD)明顯有利于保護敏感數據,但仍是一個研究缺乏的領域。直到現在還沒有應用到大數據集上,因為與傳統(tǒng)形式的人工智能計算(如GPU或CPU)配合使用時,計算成本太高。

這是斯坦福大學School 醫(yī)學計算機視覺專業(yè)的放射學研究團隊在他們的論文《Nanobatch DPSGD:探索IPU上低批量的ImageNet上的差異私人學習》[1]中重點關注的領域。

由于計算要求,DPSGD通常應用于小數據集并進行分析。然而,斯坦福大學團隊能夠使用從公開可用的ImageNet數據集獲得的130萬張圖像對IPU系統(tǒng)進行首次分析。在本文中,ImageNet被用作由私有數據組成的大型圖像數據集的代理。這項工作可以幫助克服當前大規(guī)模部署差分隱私的障礙。

請繼續(xù)閱讀更多關于IPU有效性的信息。

使用Graphcore IPU加速NanoBatch)DPSGD

加速處理的常用方法是使用微批量,數據聯合處理,聯合梯度切割扭曲,而不是基于單個樣本的梯度。雖然這樣會加快訓練速度,但分析表明會降低生成模型的預測質量和生成的隱私保護指數,從根本上違背了其目的。事實上,用微批量1或“納米批量”進行的實驗顯示出最高的準確度。


1.jpg


圖1:不同梯度累積計數100次訓練后的分類精度。我們比較了尺寸為1(“納米批次”)和尺寸為2的微批次處理。有效批量等于微量批量乘以梯度累積計數。相同的削波和噪聲比用于不同的有效批量。因此,具有相同有效批量的項目具有相同的隱私保護保證。

nano-batch DPSGD不常用的一個主要原因是它大大降低了GPU的吞吐量,以至于在ImageNet上運行nano-batch DPSGD ResNet-50需要幾天時間。

相比之下,nano-batch DPSGD在IPU上的效率非常高,結果比在GPU上快8到11倍,時間從幾天縮短到幾個小時。對于IPU來說,由于MIMD架構和IPU的細粒度并行可以實現高得多的處理效率,因此DPSGD所需的額外運算的計算開銷要低得多(10%而不是50-90%)。

另外,隱私保護和納米批量DPSGD需要使用組范數而不是批量范數,IPU可以快速處理,但是會明顯拖慢GPU。Graphcore Research最近推出了一種新的規(guī)范化技術——代理規(guī)范,恢復了組規(guī)范的批量規(guī)范屬性,提高了執(zhí)行效率。這是一個有趣的未來探索方向。


2.jpg


表1:μbs = 1時不同硬件的吞吐量比較。GPU上的DPSGD使用vmap和TensorFlow差分隱私庫。左圖:上一代芯片。右圖:最新一代芯片。

6小時內在ImageNet上訓練nano batch DPSGD。

這些技術意味著ResNet-50可以在IPU-POD16系統(tǒng)中在ImageNet上訓練100個周期,時間在6小時左右(相比之下GPU需要幾天)。準確率達到71%,比非私有基線低5%。由于噪音增加,這是意料之中的。雖然比預期的要好,但仍是未來研究的領域。

對于差分隱私,通常還會報告ε和δ值。該論文表明,對于10-6的δ,ε是11.4,這是一個很好的范圍。該團隊對如何進一步減少這種情況有一些想法,例如通過更積極的學習率計劃來減少培訓周期的數量。


3.jpg


表2:使用不同的總批量(TB)和配置在ImageNet上獲得的差異隱私結果(第100個周期的最終ε和準確度)。持續(xù)時間是通過訓練100個周期所需的小時數來衡量的。

這項研究為改善醫(yī)療和金融服務以及許多其他行業(yè)的應用程序的隱私保護提供了一個重要的機會。在這些行業(yè)中,個人敏感數據的保護非常重要。

論文:

https://arxiv.org/abs/2109.12191

4.jpg




本文網址:http://www.holzbau-technik.com/news/937.html

相關標簽:醫(yī)學社區(qū),醫(yī)學計算機視覺

最近瀏覽:

相關產品:

相關新聞:

在線客服
分享