作為國內(nèi)首家成功部署全量版DeepSeek-R1-671B的醫(yī)療機(jī)構(gòu),深圳大學(xué)附屬華南醫(yī)院通過創(chuàng)新的量化技術(shù)和動態(tài)算力分配策略,實(shí)現(xiàn)了千億參數(shù)模型在醫(yī)療場景的落地應(yīng)用。
面對大模型部署的算力挑戰(zhàn),華南醫(yī)院通過采用INT4量化技術(shù),將671B模型的顯存需求從1.34TB降至336GB,僅需32張H100顯卡即可流暢運(yùn)行。更巧妙的是,醫(yī)院同時部署了32B、70B和671B三個版本,讓用戶可以根據(jù)任務(wù)復(fù)雜度靈活切換,既提升了復(fù)雜臨床問題的處理能力,又優(yōu)化了算力資源的使用效率。
在技術(shù)落地的過程中,安全性和可靠性是醫(yī)療AI不可逾越的紅線。華南醫(yī)院人工智能團(tuán)隊(duì)發(fā)現(xiàn),使用Ollama工具部署時,存在未授權(quán)訪問等安全風(fēng)險。為此,他們通過嚴(yán)格的本地網(wǎng)絡(luò)隔離和安全加固,并進(jìn)行了全面的壓力測試,確保系統(tǒng)在高并發(fā)場景下的穩(wěn)定性。
針對大模型普遍存在的「幻覺」問題,華南醫(yī)院開創(chuàng)性地將RAG技術(shù)與專病知識庫相結(jié)合。以外掛臨床指南、專家共識等權(quán)威資料的方式,不僅顯著提升了回答的準(zhǔn)確性,還能標(biāo)注答案出處,實(shí)現(xiàn)了診療建議的可追溯性。
3月27日,深圳大學(xué)附屬華南醫(yī)院醫(yī)學(xué)人工智能研究所副所長張永波做客健康界ALL in Al Health 創(chuàng)新應(yīng)用大講堂,揭秘大模型部署工程細(xì)節(jié),分享技術(shù)選型、AI幻覺與安全風(fēng)險規(guī)避經(jīng)驗(yàn),展望「AI醫(yī)院」從構(gòu)想逐步變?yōu)楝F(xiàn)實(shí)的路徑。
本文精選部分內(nèi)容,供廣大同仁交流,歡迎在評論區(qū)留言。
算力優(yōu)化策略 量化技術(shù)與動態(tài)模型切換
大模型本地化部署對于硬件資源要求較高,比如CPU、GPU、內(nèi)存、存儲以及網(wǎng)絡(luò)帶寬等。其中顯卡和GPU的選擇是重中之重。下表展示了醫(yī)院部署DeepSeek R1不同參數(shù)版本的顯存需求以及推薦的顯卡配置。
張永波介紹,華南醫(yī)院在部署的過程中是選擇量化的方式,也就是將模型中的權(quán)重和激活從高精度(如 FP32或FP16)轉(zhuǎn)換為低精度(如INT8或INT4)的過程,從而降低內(nèi)存占用和計(jì)算需求,同時縮小模型體積,加速推理。
醫(yī)院最終選擇了以INT4量化顯存來部署。如此,僅需一個336GB的顯存,32×H100的顯卡配置是能夠完全滿足671B的本地化部署需求。
「盡管醫(yī)院投入了大量硬件資源,但由于671B模型的參數(shù)量龐大,算力需求極高,仍無法滿足全院所有人員的并發(fā)使用需求。」張永波坦言,所以醫(yī)院部署了三種參數(shù),希望讓用戶能夠有序地、基于任務(wù)的復(fù)雜程度去選擇不同的模型版本。
比如簡單對話,32B模型版本就能夠很好實(shí)現(xiàn),如果涉及到比如數(shù)學(xué)問題、代碼邏輯推理或者復(fù)雜的臨床診療問題時,就需要切換到671B全量參數(shù)的模型,讓其去做推理。
(院內(nèi)人員可基于自己的任務(wù)需求,切換不同參數(shù)版本模型。)
部署大模型
需防Ollama「裸奔」風(fēng)險
確定了方略之后,如何進(jìn)行部署?華南醫(yī)院是基于Ollama工具,進(jìn)行DeepSeek的本地化部署。
Ollama是一個用于本地運(yùn)行和管理大語言模型(LLM)的命令行工具,它不僅集成了很多包括DeepSeekR1在內(nèi)的開源大模型,提供適用于macOS、Windows 及 Linux等多種平臺的安裝包,內(nèi)置了GPU相關(guān)驅(qū)動,能夠讓用戶在本地環(huán)境中輕松部署、運(yùn)行和監(jiān)控AI模型。
「但是Ollama有一個問題,就是滿足了速率,犧牲了性能。」張永波坦言,當(dāng)初華南醫(yī)院人工智能團(tuán)隊(duì)為了能夠快速實(shí)現(xiàn)部署而使用了Ollama工具,但是后面在開發(fā)過程中發(fā)現(xiàn),基于Ollama部署的DeepSeek在高并發(fā)量情況下是存在缺陷的,比如說同時50個用戶去訪問DeepSeek模型,可能會出現(xiàn)系統(tǒng)崩潰問題。
另一個非常重要的就是安全問題。3月3日,國家網(wǎng)絡(luò)安全通報中心發(fā)布《關(guān)于大模型工具Ollama存在安全風(fēng)險的情況通報》,提醒用戶如使用Ollama私有化部署且未修改默認(rèn)配置,就會存在數(shù)據(jù)泄露、算力盜取、服務(wù)中斷等安全風(fēng)險。
「由于華南醫(yī)院采用本地部署方案,且未開放Ollama的訪問端口,因此有效規(guī)避了潛在的安全風(fēng)險。」他表示。
在完成本地模型部署后,需要評估當(dāng)前軟硬件環(huán)境下的模型效能,定位系統(tǒng)瓶頸,也為后期負(fù)載均衡提供數(shù)據(jù)支持。張永波介紹,具體可以通過延遲、吞吐量、資源利用率、階梯加壓、極限測試等幾個方面進(jìn)行性能基準(zhǔn)測試和壓力測試。
注:文章來源于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系刪除