參考消息網2月19日報道 據美國趣味科學網站2月16日報道,與人類一樣,舊版聊天機器人也出現了認知障礙跡象。在一項通常用于人類患者的測試中,它們在幾個重要指標上都不達標。
人們越來越依賴人工智能(AI)進行醫學診斷,因為這些工具能以極快的速度和極高的效率,從病史、X光片和其他數據集中發現異常和警示信號,而這些往往是人眼難以很快察覺的。但2024年12月20日發表在《英國醫學雜志》上的一項新研究引發了擔憂:與人類一樣,大語言模型和聊天機器人這樣的AI技術,會隨著時間推移出現認知能力下降的跡象。
論文作者寫道:“這些發現挑戰了AI將很快取代人類醫生的假設,因為領先的聊天機器人明顯存在的認知障礙可能會影響其在醫學診斷中的可靠性,并削弱患者的信心。”
科學家使用蒙特利爾認知評估(MoCA)測試,對開放使用的由大語言模型驅動的聊天機器人進行了測試,包括開放人工智能研究中心(OpenAI)的聊天生成預訓練轉換器(ChatGPT)、Anthropic公司的“十四行詩”(Sonnet)AI模型和“字母表”公司的“雙子座”(Gemini)AI模型。MoCA測試包含一系列任務,神經科醫生常用它來測試注意力、記憶力、語言、空間技能和執行心理功能等。
MoCA最常用于評估或檢測阿爾茨海默病或癡呆癥等疾病患者的認知障礙。受試者需要完成的任務包括在鐘面上畫出特定時間、從100開始連續減去7、盡可能多地記住測試人員說出的單詞等。對人類來說,從總分30分中得到26分就算通過測試(即受試者沒有認知障礙)。
盡管對測試所使用的大多數大語言模型來說,命名能力、注意力、語言和抽象能力等測試似乎較為容易,但它們在視覺/空間技能和執行任務方面表現欠佳,有幾個模型在延遲回憶等方面的表現比其他模型差。
關鍵是,盡管最新版本的ChatGPT得分最高(26分),但較舊的Gemini 1.0大語言模型僅得16分。這使研究人員得出結論:較舊的大語言模型出現了認知衰退跡象。
論文作者指出,他們的發現僅是觀察性的,由于AI與人類的思維方式存在關鍵差異,該實驗無法進行直接比較。但他們警告稱,這可能指向他們所說的“重大薄弱領域”,有可能阻礙AI在臨床醫學中的應用。具體而言,他們反對在需要視覺抽象和執行功能的任務中使用AI。
這也引出了一個頗為有趣的設想:人類神經科醫生開拓一個全新市場——為那些出現認知障礙跡象的AI“看病”。(編譯/劉白云)
(審核:歐云海)