🚀 MELT-TinyLlama-1.1B-Chat-v1.0模型卡片
MELT-TinyLlama-1.1B-Chat-v1.0大語言模型(LLM)是一個預訓練的生成式文本模型,它使用公開的醫學數據進行了預訓練和微調。
在包括美國執業醫師考試(USMLE)、印度全印度醫學科學研究所(AIIMS)考試和印度全國資格暨入學考試(NEET)醫學考試樣題在內的3個醫學基準測試中,MELT-TinyLlama-1.1B-Chat-v1.0相較於TinyLlama-1.1B-Chat-v1.0有13.76%的性能提升。
✨ 主要特性
- 基於公開醫學數據預訓練和微調,適用於醫學領域的文本生成任務。
- 在多個醫學基準測試中表現優於TinyLlama-1.1B-Chat-v1.0。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型詳情
醫學教育語言變換器(MELT)模型在醫學領域的廣泛文本、聊天記錄、問答和指令數據上進行了訓練。
雖然該模型使用公開的美國執業醫師考試(USMLE)、印度全印度醫學科學研究所(AIIMS)考試和印度全國資格暨入學考試(NEET)醫學考試樣題進行了評估,但其應用範圍旨在更廣泛。
模型描述
使用場景
MELT僅用於研究目的。MELT模型最適合使用問答或聊天格式的提示。
非適用場景
MELT僅用於研究目的,不應用於提供醫療建議。
偏差、風險和侷限性
MELT使用公開可用的數據集進行訓練,這些數據集可能包含有偏差和不準確的信息。訓練和評估數據集的內容和準確性尚未經過評估。
如何開始使用該模型
可以像使用任何llama-2-7b-chat-hf模型一樣使用此模型。
訓練詳情
訓練數據
以下數據集用於訓練:
訓練過程
訓練超參數
- Lora秩: 64
- Lora阿爾法: 16
- Lora目標: "o_proj","down_proj","v_proj","gate_proj","up_proj","k_proj","q_proj"
- 學習率: 2e-4
- 訓練輪數: 3
- 精度: bf16
評估
在3個美國執業醫師考試(USMLE)、印度全印度醫學科學研究所(AIIMS)考試和印度全國資格暨入學考試(NEET)醫學考試基準測試中,MELT-TinyLlama-1.1B-Chat-v1.0相較於TinyLlama-1.1B-Chat-v1.0平均有13.76%的性能提升。
TinyLlama-1.1B-Chat-v1.0
- medqa: {'base': {'Average': 25.49, 'STEP-1': 24.48, 'STEP-2&3': 26.64}}
- mausmle: {'base': {'Average': 19.71, 'STEP-1': 21.18, 'STEP-2': 20.69, 'STEP-3': 17.76}}
- medmcqa: {'base': {'Average': 28.52, 'MEDICINE': 29.35, 'OPHTHALMOLOGY': 28.57, 'ANATOMY': 30.82, 'PATHOLOGY': 29.07, 'PHYSIOLOGY': 20.45, 'DENTAL': 30.09, 'RADIOLOGY': 14.29, 'BIOCHEMISTRY': 22.31, 'ANAESTHESIA': 26.09, 'GYNAECOLOGY': 24.84, 'PHARMACOLOGY': 32.02, 'SOCIAL': 31.11, 'PEDIATRICS': 31.82, 'ENT': 28.95, 'SURGERY': 31.45, 'MICROBIOLOGY': 26.03, 'FORENSIC': 16.28, 'PSYCHIATRY': 22.22, 'SKIN': 40.0, 'ORTHOPAEDICS': 21.43, 'UNKNOWN': 0.0}}
- 平均: 24.57%
MELT-TinyLlama-1.1B-Chat-v1.0
- medqa: {'base': {'Average': 29.5, 'STEP-1': 28.17, 'STEP-2&3': 31.03}}
- mausmle: {'base': {'Average': 21.51, 'STEP-1': 27.06, 'STEP-2': 19.54, 'STEP-3': 18.69}}
- medmcqa: {'base': {'Average': 32.84, 'MEDICINE': 27.72, 'OPHTHALMOLOGY': 38.1, 'ANATOMY': 39.73, 'PATHOLOGY': 32.56, 'PHYSIOLOGY': 35.61, 'DENTAL': 32.23, 'RADIOLOGY': 41.07, 'BIOCHEMISTRY': 33.06, 'ANAESTHESIA': 39.13, 'GYNAECOLOGY': 22.88, 'PHARMACOLOGY': 32.58, 'SOCIAL': 26.67, 'PEDIATRICS': 34.09, 'ENT': 42.11, 'SURGERY': 33.47, 'MICROBIOLOGY': 30.14, 'FORENSIC': 41.86, 'PSYCHIATRY': 55.56, 'SKIN': 60.0, 'ORTHOPAEDICS': 35.71, 'UNKNOWN': 100.0}}
- 平均: 27.95%
測試數據、因素和指標
測試數據
免責聲明
使用此類大語言模型不提供任何形式的保證。儘管已盡力確保生成信息的準確性、完整性和可靠性,但需注意這些模型可能會產生不準確、過時或不適合特定用途的響應。建議用戶在依賴這些模型生成的信息時保持謹慎和判斷力。其輸出不應被視為專業、法律、醫療、財務或任何其他形式的建議。對於特定問題或關鍵決策,建議尋求專家建議或諮詢相關權威來源。模型的創建者、開發者和提供者對因使用、依賴或解釋這些模型提供的信息而產生的任何損害、損失或後果不承擔任何責任。用戶需對其與模型的交互和使用生成內容負全部責任。使用這些語言模型即表示用戶接受並理解本免責聲明。請注意,這些模型在不斷發展,其能力、侷限性和輸出可能會在無事先通知的情況下發生變化。
📄 許可證
本模型使用Apache 2.0許可證。