🚀 VetBERT:用於獸醫臨床任務的預訓練模型
VetBERT是一個專門為獸醫臨床筆記相關的自然語言處理(NLP)任務而設計的預訓練模型。它能助力獸醫領域的信息處理,提升臨床診斷和研究的效率。
🚀 快速開始
本預訓練模型來自GitHub倉庫:https://github.com/havocy28/VetBERT。可以通過以下方式加載模型:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("havocy28/VetBERT")
model = AutoModelForMaskedLM.from_pretrained("havocy28/VetBERT")
VetBERT_masked = pipeline("fill-mask", model=model, tokenizer=tokenizer)
VetBERT('Suspected pneuomina, will require an [MASK] but in the meantime will prescribed antibiotics')
✨ 主要特性
- 專業適配:該模型專為獸醫臨床筆記的NLP任務而設計,在獸醫醫學領域具有高度的專業性和針對性。
- 深度預訓練:基於ClinicalBERT(Bio + Clinical BERT)進行初始化,並在VetCompass Australia語料庫上進一步預訓練,能更好地處理獸醫相關文本。
- 可微調性:可以在特定的獸醫臨床數據集上進行微調,以適應不同的疾病綜合徵分類任務。
📦 安裝指南
使用該模型,你需要安裝transformers
庫:
pip install transformers
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("havocy28/VetBERT")
model = AutoModelForMaskedLM.from_pretrained("havocy28/VetBERT")
VetBERT_masked = pipeline("fill-mask", model=model, tokenizer=tokenizer)
VetBERT('Suspected pneuomina, will require an [MASK] but in the meantime will prescribed antibiotics')
📚 詳細文檔
預訓練數據
VetBERT模型從Bio_ClinicalBERT模型初始化而來,而Bio_ClinicalBERT又是從BERT初始化的。VetBERT模型在超過1500萬條獸醫臨床記錄和13億個標記上進行了訓練。
預訓練超參數
在VetBERT的預訓練階段,使用了以下超參數:
- 批量大小:32
- 最大序列長度:512
- 學習率:5 · 10−5
- 輸入數據複製因子(不同掩碼):5
其他默認參數保持不變(具體而言,掩碼語言模型概率 = 0.15,每個序列的最大預測數 = 20)。
VetBERT微調
根據論文Domain Adaptation and Instance Selection for Disease Syndrome Classification over Veterinary Clinical Notes,VetBERT在一組5002條帶註釋的臨床筆記上進一步微調,以對與臨床筆記相關的疾病綜合徵進行分類。
📄 許可證
本模型使用OpenRail許可證。
📚 引用
如果你使用了該模型,請引用以下文章:
Brian Hur, Timothy Baldwin, Karin Verspoor, Laura Hardefeldt, and James Gilkerson. 2020. Domain Adaptation and Instance Selection for Disease Syndrome Classification over Veterinary Clinical Notes. In Proceedings of the 19th SIGBioMed Workshop on Biomedical Language Processing, pages 156–166, Online. Association for Computational Linguistics.