華中科大AI模型預(yù)測新冠生存率準確率90%，有助早期介入!

發(fā)布日期：2022-03-11 作者：WLT 點擊：

當?shù)貢r間3月17日，預(yù)印醫(yī)療平臺medRxiv發(fā)布了一項名為“基于機器學習的嚴重co vid-19感染患者生存預(yù)測模型”的研究成果(未經(jīng)同行評審)。這項由29名科學家共同進行的研究，利用最新的可解釋機器學習算法，揭示了預(yù)測新冠肺炎(新冠肺炎)患者存活率的生物標志物，有望加強新冠肺炎高?；颊叩脑缙诟深A(yù)，降低死亡率。

研究團隊來自華中科技大學同濟醫(yī)學研究所附屬同濟醫(yī)院，華中科技大學人工智能與自動化學院，劍橋大學植物科學學院等。本文作者為華中科技大學人工智能與自動化學院教授袁燁、同濟醫(yī)院麻醉科徐輝、醫(yī)學急診(重癥)科主任李樹生。

研究人員收集了來自武漢同濟醫(yī)院的404名新冠肺炎感染患者的血液樣本，并對其進行了回顧性分析。通過機器學習工具，研究團隊最終選擇了三種生物標志物來預(yù)測個體患者的生存率，準確率超過90%: LDH(乳酸脫氫酶)、淋巴細胞和hs-CRP(高敏C反應(yīng)蛋白)。

特別是，只有高LDH水平的指標可用于區(qū)分需要立即治療的絕大多數(shù)病例。研究人員表示，這一發(fā)現(xiàn)與目前的醫(yī)學知識相一致，即LDH水平高與各種疾病中的組織分解有關(guān)，包括肺炎等肺部疾病。

在現(xiàn)階段，對疾病的嚴重程度進行快速、準確和早期的臨床評估是非常重要的。然而，目前還沒有明確的生物標志物作為區(qū)分需要立即就醫(yī)的患者的標準。

在這項研究中，作者使用最先進的機器學習框架表明，上述三種生物標志物可以準確預(yù)測疾病的嚴重程度，從而大大減輕臨床參數(shù)監(jiān)測和其他相關(guān)醫(yī)療負擔的壓力。

研究人員開發(fā)了一種基于XGBoost機器學習的預(yù)后模型，通過使用患者的最新血液樣本，可以預(yù)測新冠肺炎重癥患者的存活率，準確率超過90%。使用其他血液樣本可以達到90%的預(yù)測準確率。

本研究提出了一個簡單可操作的公式，可以快速發(fā)現(xiàn)新冠肺炎高危患者，早期干預(yù)，盡可能降低其死亡率。

研究樣本和模型訓練

研究人員進行了一項分類任務(wù)，輸入普通、重癥和危重疾病患者的基本信息、癥狀、血液樣本和實驗室檢查結(jié)果(包括肝功能、腎功能、凝血功能、電解質(zhì)和炎癥因子)，并將其與測試期結(jié)束時的臨床后果(存活或死亡)對應(yīng)起來。

研究樣本為同濟醫(yī)院于2020年1月10日至2月20日收集的404例患者的醫(yī)療信息。在這404名患者中，213名康復(fù)，其余191名死亡。作者指出，高死亡率與同濟醫(yī)院作為定點醫(yī)院有關(guān)，它治療最嚴重的病例。研究人員使用標準病例報告表來收集醫(yī)療記錄，包括流行病學、人口統(tǒng)計學、臨床、藥物、護理和死亡率信息。

研究人員使用375名患者的信息進行算法開發(fā)，并使用29例進行驗證。

研究人員將患者數(shù)據(jù)分為訓練集、測試集和其他附加驗證集。共有375名患者被包括在訓練集和測試集中，而29名患者被包括在驗證集中。按照7: 3的比例設(shè)置訓練集和測試集的樣本數(shù)，然后進行5次交叉驗證。

驗證組的患者都是重癥患者，因為就臨床結(jié)果而言，他們是最不可預(yù)測的。從臨床癥狀來看，發(fā)熱是最常見的首發(fā)癥狀(49.9%)，其次是咳嗽(13.9%)、乏力(3.7%)和呼吸困難(2.1%)。375例患者的年齡分布為58.83±16.46歲，其中男性占58.7%?；颊咧?7.9%為武漢市居民，6.4%為家庭聚集性病例，1.9%為醫(yī)療務(wù)工人員。

患者的年齡、性別、流行史等特征。

雖然大多數(shù)患者在整個住院期間收集了多個血樣，但模型訓練和測試僅使用患者的最新血樣記錄作為輸入，以獲得評估疾病嚴重程度的關(guān)鍵生物標志物，區(qū)分需要立即醫(yī)療援助的患者，并準確匹配每個標簽的相應(yīng)功能。

患者三種生物標志物的中值，以及25和75的百分位數(shù)。

與死亡風險最相關(guān)的臨床特征

研究人員使用名為XGBoost的分類器作為預(yù)測模型。XGBoost是一種高性能的機器學習算法，由于其基于樹型方法的遞歸決策系統(tǒng)，具有很大的可解釋性。模型的輸出對應(yīng)于患者的生存狀況。研究人員將存活的患者歸類為0，死亡的患者歸類為1。

研究者之所以沒有采用黑盒建模策略，是因為其內(nèi)部建模機制通常難以解釋。在XGBoost中，每個函數(shù)的重要性取決于它在樹的每個決策步驟中的累積使用量。通過這種方式，可以獲得一個度量來表征每個特征的相對重要性，這對于評估模型結(jié)果中最顯著的特征尤其有價值，尤其是當研究與臨床醫(yī)療參數(shù)相關(guān)時。

為了評估死亡風險的標志，研究人員通過特征選擇過程評估了每個患者參數(shù)對算法決策的貢獻。XGBoost根據(jù)函數(shù)的重要性對其進行排序。該算法選擇三個頂級臨床特征:LDH、淋巴細胞和hs-CRP，因此它們被設(shè)置為關(guān)鍵特征。

根據(jù)其在多樹XGBoost算法中的重要性，研究人員排列了十大關(guān)鍵臨床特征，LDH、淋巴細胞和hs-CRP排在前三位。

結(jié)果表明，在不考慮入院時的初始診斷的情況下，該模型可以準確地預(yù)測患者的預(yù)后。

此外，附加驗證集的性能類似于訓練和測試集的性能，這表明該模型捕獲了與患者生存相關(guān)的關(guān)鍵生物標志物。同時，算法結(jié)果進一步強調(diào)了LDH作為患者存活率關(guān)鍵生物標志物的重要性。

訓練/測試拆分和附加驗證集三個關(guān)鍵特征的模型性能，F(xiàn)1-score是算法準確率和召回率的調(diào)和平均值，最高為1，最低為0。

根據(jù)對LDH、淋巴細胞和hs-CRP重要性的發(fā)現(xiàn)，研究人員進一步構(gòu)建了一個可以應(yīng)用于臨床的簡化決策模型，即單決策樹。因為24名患者的三個主要生物標志物中至少有一個是不完整的，所以研究人員用剩余的351名患者確定了XGBoost模型。

簡單來說，研究人員選擇模型中性能最好的樹，利用三個關(guān)鍵特征及其閾值來預(yù)測患者的死亡或存活。

根據(jù)測試數(shù)據(jù)集及其準確性選擇具有最佳性能的樹

該模型顯示了100%的死亡率預(yù)測準確性和90%的生存預(yù)測準確性?？傮w來看，無論是多樹XGBoost模型還是單樹XGBoost模型，模型對于生存和死亡預(yù)測的準確率、宏觀和加權(quán)平均得分始終超過0.90。

最后，大多數(shù)患者在住院期間接受了多個血液樣本。研究人員用成千上萬的額外血液測試結(jié)果驗證了該模型，發(fā)現(xiàn)預(yù)測準確率達到90%。此外，相關(guān)結(jié)果進一步表明，無論患者的臨床結(jié)果如何，該模型都可以應(yīng)用于任何血液樣本。

盡早識別高風險患者，并快速確定優(yōu)先級。

研究人員表示，這項研究的意義是雙重的。首先，一般的相關(guān)研究只會“提供高危因素的范圍”，而這個模型提供了一個簡單直觀的臨床測試，然后可以準確快速的量化死亡風險。

如果醫(yī)生能夠提前知道某些治療方法會導致某些患者治療效果不理想，那么醫(yī)生就可以在病情變得更嚴重之前采取不同的方法。應(yīng)用該模型的目的是在不可逆病變發(fā)生前識別高?；颊摺?/p>

其次，任何醫(yī)院家族都可以很容易的收集到患者的LDH(乳酸脫氫酶)、淋巴細胞、hs-CRP(高敏C反應(yīng)蛋白)的信息。這個簡單的模型可以幫助在擁擠的醫(yī)院中醫(yī)療資源短缺的情況下，快速確定患者的優(yōu)先級。

患者體內(nèi)LDH水平的升高可以反映組織或細胞的破壞，這被認為是組織或細胞損傷的共同標志。血清LDH已被確定為特發(fā)性肺纖維化嚴重程度的重要生物標志物(IPF)。

在嚴重的肺間質(zhì)疾病患者中，LDH的升高是顯著的，并且它是肺損傷的最重要的預(yù)后指標之一。因此，對于重度新冠肺炎患者，LDH水平的升高表明肺損傷的嚴重程度增加。

研究小組指出，較高的血清hs-CRP也可以用來預(yù)測重癥新冠肺炎患者的死亡風險。hs-CRP的升高是ARDS患者預(yù)后不良的重要標志，反映了炎癥的持續(xù)狀態(tài)。

值得注意的是，這種持續(xù)炎癥反應(yīng)的結(jié)果可以從新冠肺炎死者的尸檢中看出，即肺部出現(xiàn)大量灰白色病變，組織切片中也可見大量肺泡的粘稠分泌物。

最后，研究結(jié)果還表明，淋巴細胞可能作為潛在的治療靶點，這一點得到了臨床研究結(jié)果的支持。此外，包括北京中日友好醫(yī)院呼吸科主任曹斌在內(nèi)的研究人員已經(jīng)證明，淋巴細胞減少是新冠肺炎患者的常見特征，可能是與疾病嚴重程度和死亡率相關(guān)的關(guān)鍵因素。

與SARS和MERS患者肺泡穿透和抗原呈遞細胞(APC)損傷的方式一樣，新冠肺炎患者受損的肺泡上皮細胞可誘導淋巴細胞浸潤，導致持續(xù)性淋巴細胞減少。

之前的一項患者活檢研究表明，外周血中CD4和CD8 T細胞的數(shù)量大大減少，它們的狀態(tài)是過度激活的。此外，一些研究表明，淋巴細胞減少主要與CD4和CD8 T細胞減少有關(guān)。因此，淋巴細胞在新冠肺炎中可能起著明顯的作用，值得進一步研究。

作者說這項研究也有一些局限性。首先，因為這種機器學習方法是純數(shù)據(jù)驅(qū)動的，如果我們從不同的數(shù)據(jù)集出發(fā)，模型可能會不一樣。

另外，雖然作者掌握了80多個臨床測量結(jié)果，但為了避免過擬合，團隊采用的建模原則是在最少的臨床測量結(jié)果數(shù)和良好的預(yù)測能力之間進行權(quán)衡，因此可能存在臨床測量結(jié)果不夠豐富的問題。

最后，本研究平衡了模型的可解釋性和較高的準確性。雖然臨床環(huán)境傾向于使用可解釋的模型，但如果使用黑盒模型，準確性可能更高，但同時決策的風險也更高。

從技術(shù)角度來看，作者認為這項工作有助于使用機器學習方法預(yù)測和診斷正在經(jīng)歷大規(guī)模全球爆發(fā)的COVID 19病例。

国产人与动人物a级毛片_免费看黄色视频的网站_国产亚洲视频精选_精品偷自拍另类在线观看

新聞分類