人工智能診斷或預測疾病風險的能力正迅速提升,一些人工智能工具已經(jīng)進入臨床實踐。最近幾周,研究人員公布了通過掃描視網(wǎng)膜圖像即可預測眼睛和心血管疾病風險的人工智能模型,并可通過分析乳房X光線照片來檢測乳腺癌。
人工智能診斷具備改善醫(yī)療服務的交付和提高效率的潛力,它代表了多年來計算能力和深度學習背后的神經(jīng)網(wǎng)絡研究的提升。研究人員認為,當一種算法能夠像病理學家和放射科醫(yī)師那樣有效地從這些圖像中識別出特定的病癥,那么該算法可以說是成功的。
但這并不意味著人工智能診斷已做好了臨床的準備。有關人工智能診斷的許多研究很成功,令人歡欣鼓舞,可是科學的研究過程要求詳細描述研究方法和所用材料,并在研究的過程中反復試驗,最后還需進行大量的臨床試驗。人工智能診斷在這些方面還遠遠不夠。許多業(yè)內人士抱怨說,開發(fā)人員并沒有把研究工作做得足夠深入。他們沒有采用像藥物開發(fā)那樣在成熟領域建立得以證據(jù)為基礎的試驗方法。他們沒有想藥物開發(fā)那樣使用基于實證的研究方法
例如,許多關于新的人工智能診斷工具的報告,只會在網(wǎng)站的預印本或聲明中出現(xiàn)。這些報告沒有經(jīng)過行業(yè)的評審,也可能永遠不會。而行業(yè)的評審會驗證這些研究的關鍵細節(jié),如:基礎算法代碼和分析、用于訓練模型的圖像、與之類比的醫(yī)生、用于神經(jīng)網(wǎng)絡做決定的特征、診斷的警告等。
這些細節(jié)至關重要。例如,去年發(fā)表的一項調查發(fā)現(xiàn),將每個X光照片的評估時間限定為1分鐘時,利用人工智能模型檢測乳腺癌的效果要好于11名病理學家。然而,當不再限制時間時,病理學家比計算機發(fā)現(xiàn)了更多難以檢測的病例。
還一些問題只有在實際應用時才會出現(xiàn)。例如,診斷算法可能會錯將某些特定設備生成的圖像與某些疾病聯(lián)系起來。但這僅僅可能是因為該算法在訓練過程中,使用該設備的醫(yī)療機構檢測的此類病人比使用不同設備的另一家醫(yī)療機構更多。
這些問題是可以克服的。一種方法是,對于醫(yī)生來說,在醫(yī)療機構里使用人工智能診斷工具后,醫(yī)生需要追蹤結果并報告,這樣回溯性研究就會暴露出該工具的缺陷。更好的方法是,這些工具應該被嚴格地開發(fā)——在大量數(shù)據(jù)上進行訓練測試,并在經(jīng)過行業(yè)評審的受控研究中進行驗證。這是一個緩慢而困難的過程,一部分的原因在于隱私問題使得研究人員很難獲得所需的大量醫(yī)療數(shù)據(jù)。
《自然》雜志的一篇報道探討了一個可行的方法:研究人員正在構建基于區(qū)塊鏈的系統(tǒng),以鼓勵患者安全地分享信息。目前,人類的監(jiān)督可能會防止人工智能診斷中出現(xiàn)的問題釀成關乎性命的大問題。因此,美國食品和藥物管理局等監(jiān)管機構允許醫(yī)生進行低風險的技術試驗。
但缺乏嚴謹?shù)膽B(tài)度確實會帶來直接的風險:炒作失敗周期可能會阻止其他人投資類似的技術,這可能會更好。有時候,在競爭激烈的領域,如人工智能,一個廣為人知的研究成果足以阻止對手進入同一領域。
細致而謹慎的研究是一種更好的方法。需要可靠的數(shù)據(jù)和強大方法支撐的研究可能需要更長時間,并且不會產生盡可能多的令人滿意的結果。但只有這樣才能將人工智能診斷的研究引向正軌,并可防止因失誤造成的病人死亡,從而真正改善我們的生活。