原文來源:量子位
圖片來源:由無界AI 生成
“怪病”纏身3年求醫無果,最終竟然被ChatGPT成功診斷
這是發生在一名4歲男孩身上的真實經歷。
某次運動後,他身體開始劇痛。母親前後帶她看了17名醫生,從兒科、骨科到各種專家,先後進行了MRI等一系列檢查,但沒一個真正找出病因。
他的母親沒抱太大希望地嘗試求助ChatGPT,後者卻根據描述和檢查報告,直接給出了正確的建議。
話題一出衝上知乎熱榜,Reddit熱度也飆升至2.3k。
有網友表示,GPT這次真的很讓人激動:
每個醫生的辦公室都可以配備一個AI助手,並將它與自己的診斷結果進行比較。
還有網友cue了下谷歌專門訓練的輔助醫療診斷大模型Med-PaLM,想知道它的診斷結果如何:
對於大模型而言,這幾乎是個完美的測試任務。
所以,這具體是怎麼一回事?
究竟是什麼樣的“怪病”?
故事的主人公名叫Alex,他的母親Courtney一共有兩個孩子。
2020年的一天,Alex的保姆告訴Courtney,Alex每天都要服用止痛藥,不然就會疼到崩盤。
接著,Alex又出現了磨牙的症狀,父母把這兩件事聯繫到了一起,認為可能是由換牙或者蛀牙引起的疼痛導致的。
於是母親帶著Alex去看了牙醫,Alex長達三年的尋醫之路便正式開始了。
由於牙醫檢查之後沒有發現任何問題,但提出鑑於Alex正在磨牙,推薦他們去看專業治療氣道阻塞的正畸醫生。
正畸醫生髮現,Alex的上顎太小,導致呼吸困難,於是給Alex放置了一個擴張器。這種治療方式的確起到了效果,母親一度認為Alex的病馬上就要痊癒了。
很合理,但現實往往是不講邏輯的。
媽媽很快又發現,只有四歲的Alex個子突然不長了。
這一次,媽媽求助的是一名兒科醫生。
醫生認為Alex可能是受到了新冠病毒的影響,但媽媽對這個解釋並不滿意。不過,媽媽還是在2021年初帶著Alex去複查了。
醫生告訴媽媽,Alex的個子“長高了一點”,但發現Alex的左右腳有些不平衡,建議他們選擇物理治療。
這次媽媽倒是相信了醫生的話,但在物理治療開始之前,Alex又出現了頭痛的症狀,而且越來越嚴重。
物理治療的事只好先擱置一下,母親先帶Alex去看神經(內)科醫生,結論是Alex患有偏頭痛。
在和頭痛進行抗爭的同時,Alex還被精疲力竭的症狀困擾著,於是又被帶到了耳鼻喉科醫生那裡檢查是否有鼻竇問題影響睡眠。
經歷了這番波折之後,Alex終於開始接受物理治療,他的物理治療師認為,Alex可能患有一種名為Chiari畸形的先天性疾病。
這種先天性疾病會導致頭骨與脊柱相接處的大腦出現異常。
母親開始對此展開研究,帶著Alex看了新的兒科醫生、小兒內科醫生、成人內科醫生和肌肉骨骼醫生等。
最終Alex看過的醫生多達17位,可以說幾乎踏遍了能想到的所有科室,甚至被送入急診,但依舊沒能檢查出個所以然。
直到ChatGPT讓整個事件出現了180度大逆轉。
抱著試一試的心態,母親註冊了一個ChatGPT賬號。
她將Alex的症狀和MRI報告中的註釋一併輸入,其中有一個細節,就是Alex無法完成盤腿坐的動作。
ChatGPT給出了診斷——脊髓栓係綜合徵(TCS)。
當然Courtney並沒有直接相信,得到答案之後她先是找到了Facebook上的一個患兒家長交易所群。
結果看了裡面的討論之後,母親覺得這些症狀和Alex真的是太像了。
這一發現讓幾近熄滅的希望之火重新燃了起來,事後母親回憶說,自己在電腦前坐了一整晚,經歷了所有的一切。
帶著這一結論和Alex的MRI報告,找到了神經外科醫生。
這次終於是找對人了,神外醫生看了一眼MRI就給出了和ChatGPT一樣的結論,並指出了栓系的具體位置。
再後來的事情就比較順利了。 Alex接受了手術治療,目前正在進行康復。
那麼為什麼Alex直到看到第18個醫生才最終確診呢?
首先,和Alex自身也有一定關係。
TCS患者的背部通常會出現裂口,但Alex並沒有裂口,這種情況稱為隱式脊髓栓係綜合徵(OTCS)。
雖然TCS是罕見病,但在新生兒中的發病率也並不低,約為0.005~0.025%,比白血病的發病率還要高一些。
△陳瑩格, 米陽. 妊娠期多發性胎兒發育異常一例[J]. 臨床醫學進展, 2023, 13(2)
但OTCS就比較罕見了——罕見到發病率根本沒統計出來。
不過畢竟故事的最後,外科醫生看到MRI圖像之後很快就給出了判斷。
所以,之前沒能確診,或許是因為“找錯了醫生”:那17名醫生中,的確沒有人從事外科。
當然,這也是正常的,畢竟他們都是擅長各自專業領域的專科醫生(對應全科醫生),專業之外的知識難免了解不全面。
但是這也暴露出了一個問題,遇到無法解釋的難題時,這些醫生都沒有考慮進行多學科會診,是否全面詢問過Alex的各項病史也不得而知。
用母親Courtney的話說,沒有人願意解決“更大(超出自己學科範圍)的問題”,沒有人會給出任何關於診斷結果的線索。
而ChatGPT的知識庫至少在廣度上比細分領域的專業人士要豐富的多,更加全面地考慮了Alex的情況,最終才給出正確的結論。
那麼這次ChatGPT的成功診斷,究竟是誤打誤撞,還是確實已經具備診斷能力了?
AI究竟能不能用於診斷?
事實上,用ChatGPT或GPT-4來做病情診斷工具,也不是第一次有人這樣做了。
像是GPT-4出來後不久,就有人用它成功診斷了自家狗子的一種病例,這段經歷一度在網上爆火。
他將狗子從第一次發病開始的症狀、治療過程以及每次的血液檢測報告都告訴了GPT-4:
20號當天高燒41.5Celsius度,醫生根據驗血結果診斷為犬巴貝斯蟲病(附血液檢測結果),接下來的3天接受抗生素治療,24日當天接受抗生素治療,但出現牙齦蒼白(附新的血液檢測結果)。
GPT-4很快給出了檢測結果,並在對話中表明可能是以下兩種原因導致的:
1、溶血:由於各種原因造成的紅細胞破壞,如免疫介導性溶血性貧血(IMHA)、毒素或除巴貝斯蟲病以外的其他感染。
2、失血:內部或外部出血,可由創傷、手術或胃腸道問題(如潰瘍或寄生蟲)引起。
最終醫生診斷結果顯示,狗子患上的確實是免疫介導性溶血性貧血(IMHA),對症下藥後狗子得救了。
除此之外,也有網友自述被ChatGPT(GPT-4)救了一命的經歷。
他在去健身房後渾身酸痛,將病症諮詢GPT-4後,得出“橫紋肌溶解症”的答案,立刻去醫院並因此撿了一命。
但也有學術研究提到,無論是ChatGPT還是GPT-4,都並非一個完全可以依賴的AI醫生。
例如哈佛大學附屬醫院布萊根婦女醫院(BWH)發表在JAMA上的一項研究就顯示,在給出癌症治療建議時,ChatGPT只有62%的案例是完全正確的。
在其他的案例中,有34%的建議至少都包含一個或多個和正確診斷結果不一致的答案,還有2%的案例給出了不可信的診斷結果。
對此,研究認為,還不能完全將診斷交給ChatGPT或GPT-4,畢竟他們在診斷這一過程上依舊無法和專業的醫生相比。
(不過有網友指出,ChatGPT沒診斷成功的原因,可能也和訓練數據有關,2021年之後的治療信息不包含其中)
對此,哈佛大學流行病學助理教授Andrew Beam認為,ChatGPT和GPT-4的使用效果應該分兩面看待:
一方面,它們要比一些普通的診斷軟件或是谷歌搜索引擎更好用,尤其是GPT-4這個版本。
但另一方面,它們目前還不太可能取代具備大量專業知識的臨床醫生。畢竟對於AI來說,它們確實可能在找不到答案時捏造信息,根據“幻覺”推測出錯誤結果。
美國醫學會(AMA)的主席Jesse M. Ehrenfeld對此表示,即使AI能診斷結果,最終的責任還是醫生自己的。
總結一下上述觀點就是,大夥兒可以用AI輔助診斷病情,比搜索引擎好用,但最終還是得去醫院,找醫生確診。
那麼,如果打算用大模型“問問診”,哪個大模型最好用?
有網友就以自己為病例,測試了各種大語言模型是否具備診斷能力,最終認為還是GPT-4比較能勝任:
我曾經就慢性咳嗽的原因諮詢過幾位醫生,但最終是在一個油管頻道上得知自己患了LPR(隱性咽喉返流)。
我用自己的病例測了測大模型,GPT-4是唯一一個成功診斷的。 Claude 2雖然答案接近,但沒能完全自主診斷出來。
你有嘗試過用AI幫助判斷病情嗎?感覺效果如何?
參考鏈接:
[1]https://www.today.com/health/mom-chatgpt-diagnosis-pain-rcna101843
[2]https://www.reddit.com/r/ChatGPT/comments/16gfrwp/a_boy_saw_17_doctors_over_3_years_for_chronic/
[3]https://news.harvard.edu/gazette/story/2023/08/need-cancer-treatment-advice-forget-chatgpt/
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載