WiNGPT2-7B-Base開源醫療大模型 - 提供智能問答和診斷支持服務

首頁

Wingpt2 7B Base

由winninghealth開發

WiNGPT2是基於GPT架構的醫療垂直領域大模型，致力於整合專業醫學知識、醫療信息和數據，為行業提供智能問答、診斷支持及醫學知識服務。

大型語言模型

Transformers

中文開源協議:Apache-2.0 #醫療問答 #醫學知識圖譜 #多輪診斷對話

下載量 26

發布時間 : 9/26/2023

模型概述

WiNGPT2是一個專注於醫療領域的語言大模型，旨在通過智能問答、診斷支持和醫學知識服務提升診療效率與醫療服務質量。

模型特點

醫學問答

覆蓋症狀、治療、藥物、預防、檢查等全領域醫學問題解答。

文本理解

精準解析醫學術語、病歷等專業文本，實現關鍵信息提取與分類。

多輪對話

可模擬醫生等專業角色，結合上下文提供精準應答。

多任務支持

適配32項醫療任務，涵蓋8大場景18個子場景。

高準確率

海量醫療語料訓練，顯著降低誤診風險。

場景優化

針對真實醫療需求專項調優，提升落地適用性。

持續進化

即時吸納最新醫學研究成果，持續迭代模型能力。

模型能力

醫學問答

文本理解

多輪對話

診斷支持

醫學知識服務

使用案例

醫療智能問答

症狀諮詢

用戶輸入症狀，模型提供可能的疾病和治療建議。

提升患者自我診斷的準確性和效率。

藥物查詢

用戶查詢藥物信息，模型提供詳細的藥品說明書和用藥建議。

幫助患者正確使用藥物，減少用藥錯誤。

診斷支持

病歷分析

醫生輸入病歷信息，模型提供診斷建議和治療方案。

輔助醫生提高診斷效率和準確性。

醫學知識服務

醫學指南查詢

用戶查詢特定疾病的臨床指南，模型提供最新的指南內容。

幫助醫療從業者快速獲取權威醫學信息。

🚀 WiNGPT2

WiNGPT 是一個基於GPT的醫療垂直領域大模型，旨在將專業的醫學知識、醫療信息、數據融會貫通，為醫療行業提供智能化的醫療問答、診斷支持和醫學知識等信息服務，提高診療效率和醫療服務質量。

🚀 快速開始

WiNGPT（衛寧健康醫療語言大模型，以下簡稱WiNGPT）的研發和訓練工作開始於2023年1月。以下為您介紹其發展歷程：

3月，衛寧健康人工智能實驗室已完成了WiNGPT - 001可行性驗證並開始內測。WiNGPT - 001採用通用的GPT架構、60億參數，實現了從預訓練到微調的全過程自研。
今年5月，WiNGPT - 001訓練的數據量已達到9720項藥品知識、 18個藥品類型、7200餘項疾病知識、 2800餘項檢查檢驗知識、53本書籍知識、1100餘份指南文檔，總訓練Token數達37億。
7月，WiNGPT升級到7B並採用最新的模型架構，新增檢索式增強生成能力，同時開始了13B模型的訓練和行業邀測。
9月，WiNGPT迎來最新版本迭代，推出了全新的WiNGPT2，新版本可以被輕鬆擴展和個性化並用於下游各種應用場景。

為了回饋開源社區我們嘗試開源了WiNGPT2 - 7B版本。我們的初衷是希望通過更多的開源項目加速醫療語言大模型技術與行業的共同發展，最終惠及我們人類健康。

✨ 主要特性

核心功能

醫學知識問答：可以回答關於醫學、健康、疾病等方面的問題，包括但不限於症狀、治療、藥物、預防、檢查等。
自然語言理解：理解醫學術語、病歷等醫療文本信息，提供關鍵信息抽取和歸類。
多輪對話：可扮演各種醫療專業角色如醫生與用戶進行對話，根據上下文提供更加準確的答案。
多任務支持：支持32項醫療任務，八大醫療場景18個子場景。

模型架構

基於Transformer的70億參數規模大語言模型，採用RoPE相對位置編碼、SwiGLU激活函數、RMSNorm，訓練採用Qwen - 7b¹作為基礎預訓練模型。

主要特點

高準確度：基於大規模醫療語料庫訓練，具有較高的準確率和較低的誤診可能性。
場景導向：針對不同的醫療場景和真實需求進行專門優化和定製，更好的服務應用落地。
迭代優化：持續蒐集和學習最新的醫學研究，不斷提高模型性能和系統功能。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig

model_path = "WiNGPT2-7B-Chat"

tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
model = model.eval()

generation_config = GenerationConfig(
  num_beams=1,
  top_p=0.75,
  top_k=30,
  repetition_penalty=1.1,
  max_new_tokens=1024
)

text = 'User: WiNGPT, 你好<|endoftext|>\n Assistant: '
inputs = tokenizer.encode(text, return_tensors="pt").to(device)
outputs = model.generate(inputs, generation_config=generation_config)
output = tokenizer.decode(outputs[0])
response = output.replace(inputs, '')

## 輸出結果：你好！今天我能為你做些什麼？<|endoftext|>

高級用法

# WiNGPT2-7B-Chat使用了自定義的提示格式：
# 用戶角色：User/Assistant
# 提示模板：User:[此處有空格]WiNGPT, 你好<|endoftext|>\n[此處有空格]Assistant:；多輪對話按此模板進行拼接，例如：
# "User: WiNGPT, 你好<|endoftext|>\n Assistant:你好！今天我能為你做些什麼？<|endoftext|>\n User: 你是誰？<|endoftext|>\n Assistant:"
# 解碼時推薦使用repetition_penalty=1.1 [greedy search]

企業服務

13B模型平臺測試(直接申請密鑰)

📚 詳細文檔

訓練數據

數據總覽

醫療專業數據

來源	類型	數量
藥品說明書	知識庫	15000 條
多病種知識庫	知識庫	9720 項
醫療專業書籍	教材	300 本
臨床路徑知識庫	知識庫	1400 條
檢查檢驗知識	知識庫	110 萬條
多學科臨床指南	書籍	18 個科室共 1100 份
醫療知識圖譜	知識庫	256 萬三元組
人工標註數據集	指令	5 萬條
醫學資格考試試題	試題	30 萬條
醫療病例、報告	知識庫	100 萬條

其他公開數據

來源	類型	數量
醫學科普書籍	書籍	500 本
其他多學科書籍	書籍	1000 本
代碼	指令	20 萬條
通用類試題	試題	300 萬條
多種自然語言處理任務	指令	90 萬條
互聯網文本	互聯網	300 萬條
醫療問答、對話	指令	500 萬條

繼續預訓練

擴充模型的醫療知識庫：預訓練數據 + 部分指令數據。

指令微調

從書籍、指南、病例、醫療報告、知識圖譜等數據中自動化構建醫療指令集。
人工標註指令集，數據來源包括：電子病歷系統、護理病歷系統、PACS系統、臨床科研系統、手術管理系統、公共衛生場景、醫務管理場景以及工具助手場景。
採用 FastChat²、Self - Instruct³、Evol - Instruct⁴ 等方案，對指令集進行擴展以及豐富指令集多樣化形式。

數據工程

數據分類：根據訓練階段和任務場景進行分類。
數據清洗：去除無關信息，更正數據中的拼寫錯誤，提取關鍵信息以及去隱私處理。
數據去重：採用 embedding 方法剔除重複數據。
數據採樣：根據數據集的質量與分佈需求進行有針對性的採樣。

模型卡

訓練配置與參數

名稱	長度	精度	學習率	Weight_decay	Epochs	GPUs
WiNGPT2-7B-Base	2048	bf16	5e-5	0.05	3	A100*8
WiNGPT2-7B-Chat	4096	bf16	5e-6	0.01	3	A100*8

分佈式訓練策略與參數

deepspeed + cpu_offload + zero_stage3
gradient_checkpointing

評測

中文基礎模型評估 C - EVAL（Zero - shot/Few - shot）

	平均	平均(Hard)	STEM	社會科學	人文科學	其他
[bloomz - mt - 176B](https://cevalbenchmark.com/static/model.html?method=bloomz - mt - 176B*)	44.3	30.8	39	53	47.7	42.7
[Chinese LLaMA - 13B](https://cevalbenchmark.com/static/model.html?method=Chinese%20LLaMA - 13B)	33.3	27.3	31.6	37.2	33.6	32.8
[ChatGLM - 6B](https://cevalbenchmark.com/static/model.html?method=ChatGLM - 6B)	38.9	29.2	33.3	48.3	41.3	38
[baichuan - 7B](https://cevalbenchmark.com/static/model.html?method=baichuan - 7B)	42.8	31.5	38.2	52	46.2	39.3
[Baichuan - 13B](https://cevalbenchmark.com/static/model.html?method=Baichuan - 13B)	53.6	36.7	47	66.8	57.3	49.8
[Qwen - 7B](https://cevalbenchmark.com/static/model.html?method=Qwen - 7B)	59.6	41	52.8	74.1	63.1	55.2
[WiNGPT2 - 7B - Base](https://huggingface.co/winninghealth/WiNGPT2 - 7B - Base)	57.4	42.7	53.2	69.7	55.7	55.4

中文醫療專業評估 MedQA - MCMLE（Zero - shot）

模型名稱	平均	血液系統疾病	代謝、內分泌系統疾病	精神神經系統疾病	運動系統疾病	風溼免疫性疾病	兒科疾病	傳染病、性傳播疾病	其他疾病
[Baichuan - 7B](https://huggingface.co/baichuan - inc/Baichuan - 7B)	23.1	25.6	20.2	25.8	17.9	26.5	20.6	26.1	17.1
[Baichuan - 13B - Base](https://huggingface.co/baichuan - inc/Baichuan - 13B - Base)	37.2	34.4	36.2	40.7	38.4	57.1	31.6	30.8	34.3
[Baichuan2 - 7B - Base](https://huggingface.co/baichuan - inc/Baichuan2 - 7B - Base)	46.4	46.9	41.4	53.8	48.3	50.0	38.6	52.7	42.9
[Baichuan2 - 13B - Base](https://huggingface.co/baichuan - inc/Baichuan2 - 13B - Base)	62.9	68.8	64.4	69.7	64.9	60.3	50.9	61.2	62.9
[HuatuoGPT - 7B](https://huggingface.co/FreedomIntelligence/HuatuoGPT - 7B)	22.9	14.6	17.2	31.2	25.8	14.3	22.4	23.1	17.1
[MedicalGPT](https://huggingface.co/shibing624/vicuna - baichuan - 13b - chat)	17.9	21.9	15.5	19.5	9.3	7.1	16.7	20.9	9.5
[qwen - 7b - Base](https://huggingface.co/Qwen/Qwen - 7B)	59.3	55.2	56.9	57.0	60.9	60.3	50.4	60.4	61.0
[WiNGPT2 - 7B - Base](https://huggingface.co/winninghealth/WiNGPT2 - 7B - Base)	82.3	83.3	82.8	86.0	81.5	85.7	75.1	78.0	80

** 目前公開測評存在一定侷限性，結果僅供參考； ** 更多專業測評敬請期待。

🔧 技術細節

文檔未提供足夠詳細的技術實現細節，故跳過此章節。

📄 許可證

本項目授權協議為 Apache License 2.0，模型權重需要遵守基礎模型[Qwen - 7B](https://github.com/QwenLM/Qwen - 7B)相關協議及[許可證](https://github.com/QwenLM/Qwen - 7B/blob/main/LICENSE)，詳細內容參照其網站。
使用本項目包括模型權重時請引用本項目：https://github.com/winninghealth/WiNGPT2

參考資料

https://github.com/QwenLM/Qwen - 7B
https://github.com/lm - sys/FastChat
https://github.com/yizhongw/self - instruct
https://github.com/nlpxucan/evol - instruct

聯繫我們

網站：https://www.winning.com.cn 郵箱：wair@winning.com.cn

侷限性與免責聲明

⚠️ 重要提示

(a) WiNGPT2 是一個專業醫療領域的大語言模型，可為一般用戶提供擬人化AI醫生問診和問答功能，以及一般醫學領域的知識問答。對於專業醫療人士，WiNGPT2 提供關於患者病情的診斷、用藥和健康建議等方面的回答的建議僅供參考。

(b) 您應理解 WiNGPT2 僅提供信息和建議，不能替代醫療專業人士的意見、診斷或治療建議。在使用 WiNGPT2 的信息之前，請尋求醫生或其他醫療專業人員的建議，並獨立評估所提供的信息。

(c) WiNGPT2 的信息可能存在錯誤或不準確。衛寧健康不對 WiNGPT2 的準確性、可靠性、完整性、質量、安全性、及時性、性能或適用性提供任何明示或暗示的保證。使用 WiNGPT2 所產生的結果和決策由您自行承擔。第三方原因而給您造成的損害結果承擔責任。