BenTsao:自己訓練1個醫(yī)學模型
冠狀病毒
嘿,大家好!第二次傳染了新冠,已然過去了4天,但我還沒有轉陰。今日咱們來聊一聊醫(yī)學行業(yè)的GPT模型吧!
實則,除了ChatGPT,如今醫(yī)療行業(yè)也有十分快捷的GPT模型可供應用了。醫(yī)聯在5月25日正式公布了一款名為MedGPT的醫(yī)療大話語模型,該模型具有1000億個參數。預訓練階段應用了超越20億條醫(yī)學文本信息作為根基。但在微調階段,它結合了800萬條高品質的構造化臨床診斷信息,并獲得了100多位醫(yī)師的人工反饋督促。
MedGPT具有覆蓋國際疾病與有關健康問題統(tǒng)計分類第十版(ICD-10)中百分之六十的疾病病種的本領。你可以通過輸入病情數據與MedGPT進行交互,獲得對于本身疾病的有關數據和倡議,就像具有了1個私家醫(yī)師同樣。
假設你有興致自己訓練或者搭造1個相似的MedGPT模型,實際上在GitHub上有1個名為"本草(BenTsao)"的項目可以給你供應考慮。這個項目借用中文醫(yī)學常識建立了醫(yī)學常識圖譜,并結合GPT3.5 API對LLaMA模型進行了指令微調,以提升在醫(yī)療行業(yè)的問答成效。
BenTsao GitHub截圖
咱們來看看實際的成效吧,以下是許多示例:
腹脹、肝區(qū)疼痛
心悸、氣促
肝膽管結石
固然,實際的成效能夠并非完美,給人一類仿佛答復又仿佛沒有答復的感覺。這首要是由于訓練信息和輪次不足造成的。期望為項目做奉獻的開發(fā)者們可能連續(xù)盡力,進一步優(yōu)化和完備這個模型,以供應更確切、有用的答復。
假設你期望在本地布置BenTsao,只要將模型量化壓縮為8位,推斷流程所需的顯存占用會在9GB下列。此外,假設你可以訪問Google Colab,可以應用我供應的jupyter notebook文件,我會把鏈接放在末尾。
對于訓練方面,你須要一起24GB顯存及以上的顯卡,我嘗試過16GB顯存的顯卡會造成顯存溢出。