熱話｜Google研發醫學AI模型準確率達美國執業試合格標準

Google研究院和英國人工智能公司DeepMind近日發表研究成果，表示成功提升大型語言模型（LLM）在醫學專業領域上的準確率，在回答問題數據庫時超越美國醫生執業考試（USMLE）的合格標準，再經改良調整後的模型更直接媲美人類醫生水準。

雖然大型語言模型在自然語言理解和生成方面的能力卓越，但醫學和臨床應用的標準要求相當高。目前，評估一個模型的臨床知識通常依賴自動評估，但卻欠缺標準來評估跨任務範圍的模型預測和推理。

為解決這個問題，Google和DeepMind的研究團隊提出，使用Google一個5,400億參數的人工智能模型PaLM，以及經指令調整後的變體模型Flan-PaLM，在醫學問題數據庫MultiMedQA上接受評估，當中涵蓋專業醫學考試、研究和消費者查詢。

Flan-PaLM在MultiMedQA上成功實現人工智能的最佳準確率，其中在美國醫生執業考試數據庫MedQA上的準確率為67.6%，比之前最先進模型的準確率高出17%以上。而美國醫生執業考試的合格標準則為60%。

然而，評估揭示Flan-PaLM比起人類醫生仍然存在關鍵落差。因此，團隊引入指令提示調整，利用臨床醫生的示範答案作例子訓練模型，從而產生出Med-PaLM。團隊表示，新模型的表現令人鼓舞。

Med-PaLM在科學常識方面的準確率達到92.6%，比Flan-PaLM的61.9%大幅提高，和人類醫生僅差0.3%。在理解、檢索和推理能力上，Med-PaLM都幾乎達到人類醫生的水準。而在醫學人口統計學的偏見上，Med-PaLM的性能甚至超越人類，答案中存在偏見的情況僅有0.8%，而人類醫生的答案為1.4%，Flan-PaLM為7.9% 。

不過，在存在的不正確內容比例上，Med-PaLM給出的答案達到18.7%，比人類醫生的1.4%以及Flan-PaLM的16.1%都為高，意味指令提示調整在內容正確性方面似乎降低模型的性能。

研究團體亦請來5名非專業使用者，評估所得出醫學答案的實用性。結果顯示，Flan-PaLM的答案只有60.6%被認為有幫助，Med-PaLM增加至80.3%，而人類醫生的結果最高，達91.1%。

熱話｜Google研發醫學AI模型 準確率達美國執業試合格標準

熱話｜Google研發醫學AI模型準確率達美國執業試合格標準