王飛博士,他是康奈爾大學(xué)威爾醫(yī)學(xué)院助理教授,IBM沃森研究中心顧問(wèn),法國(guó)液空集團(tuán)研究顧問(wèn)。曾任職于康涅狄格大學(xué)以及IBM沃森研究中心。主要研究方向包括數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)技術(shù)在醫(yī)療信息學(xué)中的應(yīng)用。王飛博士已經(jīng)在相關(guān)方向的頂級(jí)國(guó)際會(huì)議和雜志上發(fā)表了近190篇學(xué)術(shù)論文,引用超過(guò)5000次,H指數(shù)38。
隨著國(guó)務(wù)院發(fā)布新一代人工智能發(fā)展規(guī)劃,“人工智能”這個(gè)已經(jīng)在最近家喻戶曉的名詞再一步被推向了風(fēng)口浪尖。對(duì)于醫(yī)療健康這一與人類息息相關(guān)的行業(yè)來(lái)講,一個(gè)自然而然的話題便是如何讓人工智能來(lái)幫助其發(fā)展。
人工智能的一個(gè)核心問(wèn)題是讓計(jì)算機(jī)算法從數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的東西。這里的“價(jià)值”依具體問(wèn)題而定。例如對(duì)IBM的沃森,價(jià)值便是從無(wú)數(shù)文獻(xiàn)當(dāng)中總結(jié)出來(lái)的知識(shí);而對(duì)于AlphaGo,價(jià)值便是從無(wú)數(shù)棋譜中總結(jié)出來(lái)的可以致勝的規(guī)則。近些年來(lái)也不斷有一些將人工智能技術(shù)應(yīng)用于醫(yī)療的嘗試,例如斯坦福的研究員利用神經(jīng)網(wǎng)絡(luò)來(lái)分析圖像中的皮膚病變是否有可能是癌癥,Google利用深度學(xué)習(xí)來(lái)通過(guò)眼底圖像分析識(shí)別病人是否患有糖尿病。
隨著各種各樣與人工智能相關(guān)的技術(shù),例如計(jì)算機(jī)硬件和軟件的快速發(fā)展,我們能夠接觸到合理用的數(shù)據(jù)越來(lái)越多。然而,要將AI應(yīng)用到醫(yī)療數(shù)據(jù)當(dāng)中,并從醫(yī)療數(shù)據(jù)中發(fā)現(xiàn)真正的價(jià)值,我們還需要考慮如下一些問(wèn)題。
第一,數(shù)據(jù)質(zhì)量
與很多其他應(yīng)用領(lǐng)域(例如圖像,語(yǔ)音)的數(shù)據(jù)不同,醫(yī)療數(shù)據(jù)種類繁雜,標(biāo)準(zhǔn)不統(tǒng)一,并且質(zhì)量參差不齊。例如電子病歷數(shù)據(jù),只有當(dāng)病人去過(guò)醫(yī)院或是診所的時(shí)候才會(huì)有記錄,并且病人通常只有在感覺(jué)不適的時(shí)候才會(huì)去醫(yī)院,這就導(dǎo)致了電子病歷天然的不完整性。并且病人并不一定會(huì)嚴(yán)格尊重遺囑進(jìn)行檢查或是吃藥,這就造成了電子病歷的不規(guī)律性。還有電子病歷在錄入的時(shí)候經(jīng)常會(huì)發(fā)生錯(cuò)誤,并且在很多檢查中由于儀器的差別記錄的精度和數(shù)值也都不同。在這種情況下,有效的評(píng)估數(shù)據(jù)質(zhì)量就成為了在挖掘數(shù)據(jù)價(jià)值之前必須要解決的問(wèn)題,因?yàn)樵诘唾|(zhì)量的數(shù)據(jù)上不大可能挖到有價(jià)值的信息。
第二,數(shù)據(jù)標(biāo)準(zhǔn)
不同的國(guó)家有不同的語(yǔ)言以及不同的衛(wèi)生體系,這也就導(dǎo)致了他們醫(yī)療數(shù)據(jù)的標(biāo)準(zhǔn)不同。甚至對(duì)于同一個(gè)國(guó)家,例如美國(guó),也存在著如Epic,Cerner,NextGen等幾套不同的電子病歷系統(tǒng)。通常要從數(shù)據(jù)中挖掘有效信息的一個(gè)前提條件是要有足夠大量的數(shù)據(jù)。將醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化,便是統(tǒng)一不同電子病歷系統(tǒng),獲得更多病人數(shù)據(jù)的首要任務(wù)。在這方面,OHDSI (ObservationalHealth Data Sciences and Informatics)是一個(gè)面向健康數(shù)據(jù)標(biāo)準(zhǔn)化的國(guó)際組織,而我們也已經(jīng)成立了OHDSI中國(guó)工作組,致力于推動(dòng)中國(guó)電子病歷標(biāo)準(zhǔn)化,構(gòu)建國(guó)內(nèi)的大型觀察性健康醫(yī)療數(shù)據(jù)網(wǎng)絡(luò)。
第三,數(shù)據(jù)量
當(dāng)前的健康醫(yī)療數(shù)據(jù)分析,尤其是在精準(zhǔn)醫(yī)療的大環(huán)境下,大都是基于病人的分析。而全世界也只有七十億人,再細(xì)化到每一個(gè)國(guó)家,每一個(gè)地區(qū),甚至每一個(gè)醫(yī)院,我們能夠利用的數(shù)據(jù)的樣本量實(shí)際非常的少。從這個(gè)角度講,與其說(shuō)健康醫(yī)療數(shù)據(jù)分析是一個(gè)大數(shù)據(jù)問(wèn)題,倒不如說(shuō)是個(gè)小數(shù)據(jù)問(wèn)題。除去電子病歷,有很多其他類型的健康數(shù)據(jù),例如通過(guò)可穿戴設(shè)備或是傳感器采集的數(shù)據(jù),就更是小樣本。隨之也出現(xiàn)了一些新的概念,例如N-of-1 Trial研究的就是基于單個(gè)患者的多重交叉設(shè)計(jì)的臨床實(shí)驗(yàn)。如何讓數(shù)據(jù)分析方法在小樣本下發(fā)揮作用,是一個(gè)非常重要的問(wèn)題。
第四,數(shù)據(jù)維度和異質(zhì)性
由于疾病的機(jī)理異常復(fù)雜,我們可以用海量的特征和指標(biāo)刻畫每一個(gè)病人的體征,從臨床數(shù)據(jù)到基因數(shù)據(jù),從電子病歷數(shù)據(jù)到調(diào)查問(wèn)卷數(shù)據(jù),從病人本身的數(shù)據(jù)到環(huán)境數(shù)據(jù),從結(jié)構(gòu)數(shù)據(jù)到非結(jié)構(gòu)數(shù)據(jù),從文本到圖像等等。在這樣的情況下數(shù)據(jù)的維度可以成千上萬(wàn)甚至百萬(wàn),并且數(shù)據(jù)的性質(zhì),包括類型,值,特點(diǎn)均不盡相同。而本條也與剛剛提到的第三條緊密相關(guān):因?yàn)槲覀儧](méi)有辦法得到足夠多的病人,那我們就需要采集盡可能全面的信息來(lái)刻畫描述每一個(gè)病人。如何集成這些各種各樣的病人數(shù)據(jù)來(lái)挖掘有效的信息,是對(duì)數(shù)據(jù)分析方法的另一個(gè)挑戰(zhàn)。
第五,數(shù)據(jù)偏倚以及模型的推廣性
由于前面所說(shuō)的種種挑戰(zhàn),我們通常進(jìn)行的分析是基于某一特定的病人人群,例如一個(gè)醫(yī)院或是一個(gè)地區(qū)。在這些病人的數(shù)據(jù)上訓(xùn)練出來(lái)的模型只能保證在這些病人,或是與這些病人類似的病人上是有效的。如何增強(qiáng)模型的推廣性與互操作性,使其能夠在不同的人群上面有效,是一個(gè)很重要的問(wèn)題。舉個(gè)例子,生成對(duì)抗模型(GAN)是最近深度學(xué)習(xí)領(lǐng)域一個(gè)非常流行的樣本生成模型,其主要目的就是通過(guò)對(duì)抗來(lái)生成盡可能“真”的樣本,使得人無(wú)法區(qū)分哪些樣本是真實(shí)的,那些是由GAN生成的。由于病人樣本有限,一個(gè)自然的想法便是用GAN來(lái)生成虛擬病人。但是由于GAN是根據(jù)訓(xùn)練樣本來(lái)生成新的樣本的,其真?zhèn)我仓荒芨鶕?jù)訓(xùn)練樣本來(lái)判斷。這樣的話,如果我們用GAN來(lái)生成虛擬病人,就會(huì)更加增加數(shù)據(jù)偏倚,而在這些病人上面訓(xùn)練的模型推廣性就會(huì)變的更差。
第六,模型的可解釋性
在醫(yī)療健康領(lǐng)域,只有模型的準(zhǔn)確性是不夠的,模型的可解釋性同樣重要。這是因?yàn)獒t(yī)療健康與每個(gè)人的生活息息相關(guān),我們不僅需要知道結(jié)論,更需要知道為什么會(huì)有這個(gè)結(jié)論。這樣就使得白盒算法,例如決策樹,再醫(yī)療數(shù)據(jù)分析中的應(yīng)用就遠(yuǎn)多于黑盒算法。而這也對(duì)黑盒算法,例如大多數(shù)的神經(jīng)網(wǎng)絡(luò)或是深度學(xué)習(xí)算法提出了挑戰(zhàn)。而可以幫助解釋模型的技術(shù)例如可視化,人機(jī)交互乃至統(tǒng)計(jì)就顯得異常重要。
第七,模型的適用性
這也是最容易被大多數(shù)計(jì)算機(jī)行業(yè)的從業(yè)者,特別是算法設(shè)計(jì)和開發(fā)人員忽視的一點(diǎn)。由于人工智能技術(shù)的流行,大家容易追逐技術(shù)熱點(diǎn)而忘記了醫(yī)學(xué)問(wèn)題本身。例如由于AlphaGo的成功,強(qiáng)化學(xué)習(xí)變得家喻戶曉。而很多從事醫(yī)療健康數(shù)據(jù)分析的研究人員也都在試圖將強(qiáng)化學(xué)習(xí)應(yīng)用于醫(yī)學(xué)問(wèn)題當(dāng)中。然而強(qiáng)化學(xué)習(xí)的一個(gè)必備環(huán)節(jié)是要與環(huán)境進(jìn)行交互,從而判斷每一步的策略是否能夠?qū)ψ罱K的目標(biāo)產(chǎn)生最大的效果。而這一環(huán)節(jié)在醫(yī)學(xué)問(wèn)題當(dāng)中是否存在?如何能夠窮盡所有可能的選擇并且判斷一個(gè)臨床路徑當(dāng)中每一步的選擇對(duì)最終結(jié)果的影響?這些都是需要仔細(xì)考慮的問(wèn)題。
第八,數(shù)據(jù)和模型的隱私性
隱私性是醫(yī)療健康數(shù)據(jù)有別于其他數(shù)據(jù)的一個(gè)重要特點(diǎn)。各個(gè)國(guó)家都有不同的法案在保護(hù)病人數(shù)據(jù)的隱私,例如美國(guó)的HIPAA法案,而衛(wèi)計(jì)委也一再?gòu)?qiáng)調(diào)在發(fā)展健康醫(yī)療大數(shù)據(jù)的同時(shí)一定要警惕數(shù)據(jù)安全,保護(hù)患者隱私。因此我們?cè)谘芯酷t(yī)療健康數(shù)據(jù)挖掘算法的同時(shí)一定要注意隱私保護(hù)。此外,除了保護(hù)數(shù)據(jù)隱私,保護(hù)模型的隱私也同樣重要。舉個(gè)例子,2014年維斯康辛大學(xué)與Marshfield Clinic在計(jì)算機(jī)安全頂級(jí)會(huì)議USENIX Security Symposium上發(fā)表了一篇文論,討論在精準(zhǔn)醫(yī)療大環(huán)境下藥物基因組學(xué)的隱私性研究。該文論指出了通過(guò)華法林的計(jì)量可以通過(guò)逆向工程推斷患者的基因信息。而通過(guò)數(shù)據(jù)擾動(dòng)等方式保護(hù)患者隱私通常會(huì)產(chǎn)生嚴(yán)重的后果,甚至患者致死。該文章指出,在精準(zhǔn)醫(yī)療的大環(huán)境下這類隱私問(wèn)題會(huì)越來(lái)越多。這樣一來(lái),我們不僅要保護(hù)數(shù)據(jù),同樣要保護(hù)數(shù)據(jù)上建立的模型。而該論文也獲得了當(dāng)年會(huì)議的最佳論文。
總之,人工智能的時(shí)代已經(jīng)到來(lái),為了擁抱人工智能數(shù)據(jù)分析一定會(huì)帶來(lái)一場(chǎng)醫(yī)療健康的技術(shù)革命。如何正確的挖掘醫(yī)療健康數(shù)據(jù),從數(shù)據(jù)中得到有價(jià)值的信息,是一個(gè)值得每一個(gè)從業(yè)者仔細(xì)考慮的問(wèn)題。我們相信,人工智能一定會(huì)把醫(yī)療變得更美好,把每個(gè)人變的更健康。