🚀 健康記錄生成器(HealthScribe)
健康記錄生成器(HealthScribe)是一個基於微調模型的臨床記錄生成工具,它能夠根據醫生與患者對話的轉錄數據,自動生成臨床記錄,為醫療工作者提供便利。
🚀 快速開始
本模型是在 facebook/bart-large-cnn 的基礎上,針對修改後的 MTS-Dialog 數據集 進行微調得到的。該模型集成於一個 Flask 網絡應用程序中,此應用允許用戶根據醫生與患者對話的自動語音識別(ASR)轉錄數據生成臨床記錄。
推理測試數據示例
更多對話示例可參考 test.txt
。
"醫生:你好呀,我喜歡你這條裙子,真漂亮!
患者:謝謝你誇一個 72 歲的老太太。
醫生:不,我是認真的。好了,你在 2009 年 5 月入院。你有高血壓病史,在 2009 年 6 月 18 日,你出現了嚴重的腹痛、腹瀉和痙攣。
患者:是的,他們說我可能感染了艱難梭菌(C Diff)。他們給我做了腹部 CT,那時他們認為我感染了。
醫生:是的,CT 顯示有瀰漫性結腸炎的跡象,所以我想他們給你用了靜脈注射抗生素?
患者:是的。
醫生:我看到了,用了甲硝唑(Flagyl)和左氧氟沙星(Levaquin)。他們還開始給你靜脈注射胃復安(Reglan)來止吐。
患者:是的,我當時噁心極了,還吐了。
醫生:在這之後,我發現你的白細胞還是很高。你現在還噁心嗎?
患者:不,我現在不噁心也不吐了,但還是腹瀉。因為一直腹瀉,我感覺很虛弱。
醫生:好的。還有其他症狀嗎?
患者:實際上沒有了,一切都還好。
醫生:很好。
患者:是的。"
✨ 主要特性
本模型用於根據醫生與患者的對話數據(ASR)生成臨床記錄,但存在一定侷限性:
- 生成結果為空(N/A)的情況較少,但有時會出現生成結果為 None 的情況。
- 當輸入數據的字符標記非常少或輸入數據非常大時,模型可能會生成與實際不符的內容。
📚 詳細文檔
訓練和評估數據
該模型在評估集上取得了以下結果:
- 損失值(Loss):0.1562
- Rouge1:54.3238
- Rouge2:34.2678
- Rougel:46.5847
- Rougelsum:51.2214
- 生成長度(Generation Length):77.04
訓練過程
模型在修改後的 MTS-Dialog 數據集上進行訓練,使用了 1201 個訓練樣本和 100 個驗證樣本。
訓練超參數
訓練過程中使用了以下超參數:
learning_rate
:2e-05
train_batch_size
:1
eval_batch_size
:1
seed
:42
gradient_accumulation_steps
:2
total_train_batch_size
:2
optimizer
:Adam(betas=(0.9,0.999),epsilon=1e-08)
lr_scheduler_type
:線性
num_epochs
:3
mixed_precision_training
:原生混合精度訓練(Native AMP)
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
Rouge1 |
Rouge2 |
Rougel |
Rougelsum |
生成長度 |
0.4426 |
1.0 |
600 |
0.1588 |
52.8864 |
33.253 |
44.9089 |
50.5072 |
69.38 |
0.1137 |
2.0 |
1201 |
0.1517 |
56.8499 |
35.309 |
48.2171 |
53.6983 |
72.74 |
0.0796 |
3.0 |
1800 |
0.1562 |
54.3238 |
34.2678 |
46.5847 |
51.2214 |
77.04 |
框架版本
- Transformers 4.39.2
- Pytorch 2.2.1+cu121
- Datasets 2.18.0
- Tokenizers 0.15.2
📄 許可證
本模型使用 MIT 許可證。
📦 模型信息