Google研究院和英國人工智能公司DeepMind近日發表研究成果,表示成功提升大型語言模型(LLM)在醫學專業領域上的準確率,在回答問題數據庫時超越美國醫生執業考試(USMLE)的合格標準,再經改良調整後的模型更直接媲美人類醫生水準。
雖然大型語言模型在自然語言理解和生成方面的能力卓越,但醫學和臨床應用的標準要求相當高。目前,評估一個模型的臨床知識通常依賴自動評估,但卻欠缺標準來評估跨任務範圍的模型預測和推理。
為解決這個問題,Google和DeepMind的研究團隊提出,使用Google一個5,400億參數的人工智能模型PaLM,以及經指令調整後的變體模型Flan-PaLM,在醫學問題數據庫MultiMedQA上接受評估,當中涵蓋專業醫學考試、研究和消費者查詢。
Flan-PaLM在MultiMedQA上成功實現人工智能的最佳準確率,其中在美國醫生執業考試數據庫MedQA上的準確率為67.6%,比之前最先進模型的準確率高出17%以上。而美國醫生執業考試的合格標準則為60%。
然而,評估揭示Flan-PaLM比起人類醫生仍然存在關鍵落差。 因此,團隊引入指令提示調整,利用臨床醫生的示範答案作例子訓練模型,從而產生出Med-PaLM。團隊表示,新模型的表現令人鼓舞。
Med-PaLM在科學常識方面的準確率達到92.6%,比Flan-PaLM的61.9%大幅提高,和人類醫生僅差0.3%。在理解、檢索和推理能力上,Med-PaLM都幾乎達到人類醫生的水準。而在醫學人口統計學的偏見上,Med-PaLM的性能甚至超越人類,答案中存在偏見的情況僅有0.8%,而人類醫生的答案為1.4%,Flan-PaLM為7.9% 。
不過,在存在的不正確內容比例上,Med-PaLM給出的答案達到18.7%,比人類醫生的1.4%以及Flan-PaLM的16.1%都為高,意味指令提示調整在內容正確性方面似乎降低模型的性能。
研究團體亦請來5名非專業使用者,評估所得出醫學答案的實用性。結果顯示,Flan-PaLM的答案只有60.6%被認為有幫助,Med-PaLM增加至80.3%,而人類醫生的結果最高,達91.1%。