- 醫療GPT:讀懂數字醫療新紀元
- 陳根
- 5505字
- 2024-05-11 17:36:13
1.4 ChatGPT如何影響醫療?
從2022年底到2023年,聊天機器人程序ChatGPT火遍全網。推出才兩個月時,ChatGPT月活躍用戶數就已經突破1億,成為互聯網歷史上用戶數增長最快的消費應用。而當初,抖音海外版TikTok在全球發布后,花了大約9個月的時間才達到這個成績。作為人工智能領域的“頂流”產品。ChatGPT的出現進一步加速了人工智能在醫療領域的落地,并展現出令人興奮的應用前景。
1.4.1 ChatGPT是個啥?
ChatGPT是OpenAI發布的最新一代的AI語言模型,是自然語言處理(Natural Language Processing,NLP)中一項引人矚目的進展。這個當今最火爆的AI語言模型,與過去那些智能語音助手的回答模式有很大的不同,ChatGPT出人意料地聰明。與當前的一些人工智能客服相比,ChatGPT真正走向了人工智能,有了我們期待的模樣。很多人形容它是一個真正的“六邊形戰士”——不僅能聊天、搜索、做翻譯,還能撰寫詩詞、論文、代碼,甚至能開發小游戲、參加考試、干科研、當醫生等。外媒評論稱,ChatGPT會成為科技行業的下一個顛覆者。
GPT的英文全稱為Generative Pre-trained Transformer(生成式預訓練轉換器),是一種基于互聯網的、可用數據來訓練的、文本生成的深度學習模型。ChatGPT“脫胎”于OpenAI在2020年發布的GPT-3。
GPT-3剛問世時,也曾引起相似的轟動。當時,GPT-3也展示出了答題、翻譯、寫文章,甚至數學計算和編寫代碼等多種能力。由GPT-3所寫的文章幾乎達到了以假亂真的地步。GPT-3被認為是當時最強大的語言模型,甚至在當時有網友評價GPT-3“無所不能”。
但現在,ChatGPT所表現出來的能力比GPT-3還要強大,可以說是智商、情商都在線。ChatGPT不僅能進行天馬行空的長對話,可以回答問題,還能根據人們的要求撰寫各種書面材料,如商業計劃書、廣告宣傳材料、詩歌、笑話、計算機代碼和電影劇本等,甚至還可以進行化學用品的模擬研發。簡單來說,就是ChatGPT具備了類人的邏輯、思考與溝通的能力,并且它的溝通能力在一些領域表現得相當驚人。
文學創作對ChatGPT而言,更是不在話下。例如,給ChatGPT一個主題,它就可以寫出小說框架。我們讓ChatGPT以“AI改變世界”為主題寫一個小說框架,ChatGPT就能清晰地給出故事背景、主要角色、故事情節和結局。若覺得小說框架還不夠完整,則可對ChatGPT進行適當提醒,ChatGPT就能在“調教”之下,繼續回答,補充完整。ChatGPT已經具備了一定的記憶能力,能夠進行連續對話。有用戶體驗之后評價稱,“ChatGPT的語言組織能力、文本水平、邏輯能力,可以說已經令人驚艷了”。甚至已經有用戶打算把日報、周報、總結這些文字工作,交給ChatGPT來輔助完成了。
普通的文本創作,只是最基本的。ChatGPT還能給程序員的代碼找Bug(Bug指的是計算機程序中出現的錯誤,也可以稱為缺陷、故障或漏洞)。一些開發者在試用中表示,ChatGPT針對他們的技術問題提供了非常詳細的解決方案,比一些搜索軟件的回答還要靠譜。美國代碼托管平臺Replit的首席執行官Amjad Masad在推特上發文稱,ChatGPT是一個優秀的“調試伙伴”,“它不僅解釋了錯誤,而且能夠修復錯誤,并解釋修復方法”。
ChatGPT還敢于質疑不正確的前提和假設,主動承認錯誤,主動拒絕一些無法回答的問題和不合理的問題,提升了對用戶意圖的理解,提高了答題結果的準確性。
在醫學領域,美國《科學公共圖書館·數字健康》雜志在2023年2月9日刊載論文稱,ChatGPT在沒有經過專門訓練或加強學習的情況下就能通過或接近通過美國執業醫師資格考試(United States Medical Licensing Examination,USMLE)。此外,ChatGPT還在考試中表現出高度的一致性和洞察力。這些結果表明,基于大語言模型的人工智能技術,可能有輔助醫學教育,甚至臨床診療、決策的潛力。
1.4.2 比ChatGPT更強大的版本
ChatGPT的強悍已經讓人們足夠震驚,而ChatGPT的下一代——GPT-4則讓人們進一步感受到,人工智能帶來的顛覆或許真的要來了。
事實上,ChatGPT其實只是OpenAI匆忙推出的測試品。據美國媒體報道,2022年11月中旬,OpenAI員工被要求快速上線一款聊天機器人。一位高管稱,該聊天機器人將被稱為“Chat with GPT-3.5”,兩周后將免費向公眾開放。這與原本安排不符。近兩年,OpenAI一直在開發名為“GPT-4”的更強大語言模型,并計劃于2023年發布。2022年,GPT-4還在進行內部測試和微調,做好上線前準備。但OpenAI的高管改變了主意。由于擔心競爭對手可能會在GPT-4之前搶先發布自己的AI聊天機器人超越他們,因此,OpenAI拿出了2020年推出的舊語言模型GPT-3的強化版本GPT-3.5,在此基礎上進行了微調。這才有了新款聊天機器人ChatGPT的誕生。
與ChatGPT的匆忙發布不同,GPT-4是有所準備的結果。根據網傳的消息,GPT-4早在2022年8月就訓練完成了。之所以到2023年3月才面市,是OpenAI需要花6個月的時間讓它變得更安全。而圖像識別、高級推理、強大的文本處理能力,是GPT-4的三大特點。
(1)就圖像識別功能來說,GPT-4可以分析圖像并提供相關信息。例如,它可以根據食材照片來推薦食譜,為圖片生成圖像描述和圖注等。但是,出于對潛在濫用的擔憂,OpenAI推遲了圖像描述功能的發布。也就是說,GPT-4的圖像輸入功能還處于尚未公開的預覽階段,目前僅能在OpenAI的直播中觀看效果。
(2)就高級推理功能來說,GPT-4能夠針對3個人的不同情況做出一個會議的時間安排,回答存在上下文關聯性的復雜問題。GPT-4甚至可以講出一些質量不怎么樣、模式化的冷笑話。雖然并不好笑,但至少,它已經開始理解“幽默”這一人類特質了。要知道,AI的推理能力,正是AI向人類思維慢慢進化的標志。
(3)就文本處理能力來說,GPT-4能夠處理超過2.5萬個單詞的文本。GPT-4在文本處理能力上是ChatGPT的8倍,并可以用所有流行的編程語言寫代碼。其實,在隨意談話中,ChatGPT和GPT-4之間的區別是很細微的。但是,當任務的復雜性達到足夠的閾值時,差異就出現了,GPT-4比ChatGPT更可靠,更有創意,并且能夠處理更細微的指令。
GPT-4還能以高分通過各種標準化考試:GPT-4在模擬律師考試中的成績超出90%的人類考生,在俗稱“美國高考”的SAT(Scholastic Aptitude Test)閱讀考試中超出93%的人類考生,在SAT數學考試中超出89%的人類考生。而同樣面對律師資格考試,ChatGPT背后的GPT-3.5排名在倒數10%左右,而GPT-4考到了前10%左右。
1.4.3 GPT-4意味著什么?
自人工智能誕生以來,科學家們就在努力實現通用AI。而所謂的通用AI,其實就是指應對多種甚至泛化問題的人工智能技術。通用AI將擁有在事務中推理、計劃、解決問題、抽象思考、理解復雜思想、快速學習和從經驗中學習的能力,能夠像人類一樣輕松地完成所有這些事情。ChatGPT和GPT-4的成功證明了大模型路線的有效性,這直接打開了通用AI發展的大門,讓AI終于完成了從0到1的突破,開啟了真正的AI時代。
ChatGPT和GPT-4的成功,根本原因其實是技術路線的成功。在OpenAI的GPT模型之前,人們在進行自然語言處理時,都用的是循環神經網絡(Recurrent Neural Network,RNN),然后再加入注意力機制(Attention Mechanism)。所謂注意力機制,就是想將人的感知方式、注意力的行為應用在機器上,讓機器學會去感知數據中的重要和不重要的部分。例如,當我們要讓AI識別一張動物圖片時,最重要該關注的地方就是圖片中動物的面部特征,包括耳朵、眼睛、鼻子、嘴巴,而不用太關注背景的一些信息。注意力機制核心的目的就在于希望機器能在很多的信息中注意到對當前任務更關鍵的信息,而對于其他的非關鍵信息就不需要太多的注意力側重。換言之,注意力機制讓AI擁有了理解的能力。
但RNN+Attention會讓整個模型的處理速度變得非常慢,因為RNN是一個詞一個詞處理的。所以,才有了2017年谷歌大腦團隊的那篇名為“Attention Is All You Need”(《自我注意力是你所需要的全部》)的論文的誕生。簡單來說,這篇論文的核心就是“不要RNN,只要Attention”。而這個沒有RNN只有Attention的自然語言模型就是Transformer,也就是今天ChatGPT能夠成功的技術基礎。這個只有Attention的Transformer模型不再是一個詞一個詞的處理,而是一個序列一個序列的處理,可以并行計算,所以計算速度大大加快,一下子讓訓練大模型、超大模型、巨大模型、超巨大模型成為可能。
于是,OpenAI在一年之內開發出了第一代GPT,第一代GPT在當時已經是前所未有的巨大語言模型,具有1.17億個參數。而GPT的目標只有一個,就是預測下一個單詞。如果說過去的AI是遮蓋句子中的一個詞,讓AI根據上下文“猜出”那個詞,進行完形填空,那么GPT要做的,就是要“猜出”后面一堆的詞,甚至形成一篇通順的文章。事實證明,基于Transformer模型和龐大的數據集,GPT做到了。
特別值得一提的是,在GPT誕生的同期,還有另一種更火的語言模型,那就是BERT。BERT是谷歌基于Transformer模型做的語言模型。BERT是一種雙向的語言模型,通過預測屏蔽子詞——先將句子中的部分子詞屏蔽,再令模型去預測被屏蔽的子詞——進行訓練,這種訓練方式在語句級的語義分析中取得了極好的效果。BERT模型還使用了一種特別的訓練方式——先預訓練,再微調。這種方式可以使一個模型適用于多個應用場景。這使得BERT模型刷新了11項NLP任務處理的紀錄。在當時,BERT直接改變了自然語言理解(Natural Language Understanding,NLU)這個領域,引起了多數AI研究者的跟隨。
面對BERT的大火,GPT的開發者們依然選擇了堅持做生成式模型,而不是去做理解。于是,就有了后來大火的GPT-3、ChatGPT和GPT-4。
從GPT-1到GPT-4,OpenAI做了兩年多時間,用大力出奇跡的辦法證明了大模型的可行性,參數從1.17億個飆升至1.8萬億個甚至更多,也似乎證明了參數越多,AI能力越強。
在這樣的模型下,開放端口給專業領域的組織合作,以GPT-4的學習能力,再結合參數與模型的優化,將很快在一些專業領域成為專家級水平。
人類發展到今天,已經從世界歷史中吸收了大量數據,這些數據以不可估量的方式改變了人類大腦中的神經連接。就像我們人類的思考和學習一樣,人工智能研究的大語言模型也能夠做類似的事情,并有效地引導它們自己的智能。
當GPT-4廣泛地開放給大眾使用后,數以億計的人涌入與GPT-4進行互動,GPT-4就將獲得龐大又寶貴的數據。于是,憑借著比人類更為強大的學習能力,GPT-4的學習與進化速度正在超越我們的想象。未來,借助各種國際科研期刊與科研資料,AI就能基于這些前沿研究來為科學家的科研提供分析、建議、模型、推演,甚至可以進行模擬科研的推演。
而一旦我們將人類社會所沉淀的醫療數據信息開發給GPT進行訓練,基于GPT的人工智能醫生在常規與標準化的診療方面超越我們人類醫生,將是指日可待的事情。
1.4.4 ChatGPT進軍醫療
ChatGPT是Transformer、基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)和GPT等相關技術發展的集大成者。它可以被理解為NLP領域的結晶,也可以被理解為通過深度學習,進而理解文本,同時生成類似于人類所創造文本的人工智能模型。ChatGPT強悍的性能令世界震驚,在ChatGPT的熱潮席卷各行各業之時,它也來到了醫療行業。
例如,美國執業醫師資格考試以難度大著稱,而美國研究人員測試后卻發現,聊天機器人ChatGPT無須經過專門訓練或加強學習就能通過或接近通過這一考試。參與這項研究的研究人員主要來自美國醫療保健初創企業安西布爾健康公司(AnsibleHealth)。他們在美國《科學公共圖書館·數字健康》雜志刊載的論文中說,他們從美國執業醫師資格考試官網2022年6月發布的376個考題中篩除基于圖像的問題,讓ChatGPT回答剩余的350道題。這些題類型多樣,既有要求考生依據已有信息給患者下診斷這樣的開放式問題,也有諸如判斷病因之類的選擇題。兩名評審人員負責閱卷打分。結果顯示,在3個考試部分,去除模糊不清的回答后,ChatGPT得分率在52.4%至75%之間。而得分率在60%左右即可視為通過考試。其中,ChatGPT有88.9%的主觀回答包括“至少一個重要的見解”,即見解較新穎、臨床上有效果且并非人人能看出來。研究人員認為,“在這個出了名難考的專業考試中達到及格分數,且在沒有任何人為強化(訓練)的前提下做到這一點”,這是人工智能在臨床醫學應用方面“值得注意的一件大事”,顯示“大語言模型可能有輔助醫學教育,甚至臨床決策的潛力”。
除通過醫考外,ChatGPT的問診水平也得到了業界的肯定。《美國醫學會雜志》(The Journal of the American Medical Association,JAMA)發表研究性簡報,針對以ChatGPT為代表的在線對話人工智能模型在腦血管疾病預防建議方面的使用合理性進行探討,表示ChatGPT具有輔助臨床工作的潛力,有助于加強患者教育,減少醫生與患者溝通的壁壘和成本。
過程中,根據現行指南對腦血管疾病三級預防保健建議和臨床醫生治療經驗,研究人員設立了25個具體問題,涉及疾病預防概念、風險因素咨詢、檢查結果和用藥咨詢等。針對每個問題均向ChatGPT提問3次,記錄每次的回答內容。每個問題的3次回答都由1名評審員進行評定,評定結果分為“合理”、“不合理”或“不靠譜”。3次回答中只要有1次回答有明顯的醫學錯誤,可直接評定為“不合理”。結果顯示,ChatGPT回答的合理概率為84%(21/25)。僅從這25個問題的回答來看,在線對話人工智能模型回答腦血管疾病預防問題的結果較好,具有輔助臨床工作的潛力。
顯然,ChatGPT與其他人工智能工具不同。事實上,它很像醫生解決問題的方式:從一個大型數據庫開始(對醫生來說,數據來自課堂、已經發表的研究和專業經驗;對ChatGPT來說,數據是數字出版材料的總和),醫生會回憶或查找符合病人癥狀的相關信息,ChatGPT則使用大量參數來精確定位合適的文本。
當然,ChatGPT在醫療場景中的應用遠不止于此。GPT是一項極具韌性的技術,它本身可以有非常多的應用,只要稍經改動便可以遷移到其他領域,同時產生良好的結果。盡管當前ChatGPT主要應用于文本對話領域,但未來融合語音、文本、圖像信號的多模態交互技術可能會成為未來行業研究的熱點方向。全球最快的圖像生成應用Stable Diffusion便是一個成功的應用案例。Stable Diffusion可以通過文字描述生成圖片,實現1秒出圖。如果在醫學影像AI上能夠應用類GPT技術,通過建立起文本與圖像之間的聯系,反過來將圖像上的關鍵信息轉換為準確的文字信息,那么或許能進一步提升醫生檢測效率和檢測能力。
從醫學教育的過程來看,醫學生和住院醫生是通過結合教科書、期刊論文、課堂指導和觀察熟練的臨床醫生來學習醫療技能的。而以ChatGPT為代表的AI大模型也能夠遵循同樣的方法。一旦ChatGPT連接到床邊的病人監護系統,就可以訪問實驗室數據并聽到醫患之間的互動,該應用程序將開始預測最佳的一系列臨床步驟。每次ChatGPT將這些決定與電子健康記錄中的臨床記錄和主治醫生的指令進行比較時,它都會學習和改進。大一的醫學生需要經過十年以上時間的教育和培訓才能技術嫻熟。未來幾代的ChatGPT將在幾個月或更短的時間內完成這一過程。隨著時間的推移,ChatGPT將不斷改進并解決越來越復雜的醫療問題。