🚀 MELT-TinyLlama-1.1B-Chat-v1.0
MELT-TinyLlama-1.1B-Chat-v1.0は、公開されている医療データを使用して事前学習および微調整された事前学習済みの生成型テキストモデルです。この大規模言語モデル(LLM)は、USMLE、インドのAIIMS、NEETの医療試験の例を含む3つの医療ベンチマークにおいて、TinyLlama-1.1B-Chat-v1.0よりも平均で13.76%の改善を示しています。
🚀 クイックスタート
このモデルは、他のllama-2-7b-chat-hfモデルと同じように使用できます。
✨ 主な機能
- 公開されている医療データを使用して事前学習および微調整されています。
- 3つの医療ベンチマークにおいて、TinyLlama-1.1B-Chat-v1.0よりも平均で13.76%の改善を示しています。
📚 ドキュメント
モデルの詳細
Medical Education Language Transformer(MELT)モデルは、医療分野の幅広いテキスト、チャット、Q/A、命令データで学習されています。モデルは公開されているUSMLE、インドのAIIMS、NEETの医療試験の例題を使用して評価されましたが、その用途はより広く適用可能です。
モデルの説明
用途
MELTは研究目的のみを想定しています。MELTモデルは、QAまたはチャット形式のプロンプトに最適です。
想定外の使用
MELTは研究目的のみを想定しており、医療アドバイスとして使用すべきではありません。
バイアス、リスク、および制限
MELTは公開されているデータセットを使用して学習されており、これらのデータにはバイアスや不正確な情報が含まれている可能性があります。学習および評価データセットは、内容や正確性について評価されていません。
学習の詳細
学習データ
以下のデータセットが学習に使用されました。
学習手順
学習ハイパーパラメータ
- Lora Rank: 64
- Lora Alpha: 16
- Lora Targets: "o_proj","down_proj","v_proj","gate_proj","up_proj","k_proj","q_proj"
- LR: 2e-4
- Epoch: 3
- Precision: bf16
評価
MELT-TinyLlama-1.1B-Chat-v1.0は、USMLE、インドのAIIMS、NEETの医療試験の3つのベンチマークにおいて、TinyLlama-1.1B-Chat-v1.0よりも平均で13.76%の改善を示しています。
TinyLlama-1.1B-Chat-v1.0
- medqa: {'base': {'Average': 25.49, 'STEP-1': 24.48, 'STEP-2&3': 26.64}}
- mausmle: {'base': {'Average': 19.71, 'STEP-1': 21.18, 'STEP-2': 20.69, 'STEP-3': 17.76}}
- medmcqa: {'base': {'Average': 28.52, 'MEDICINE': 29.35, 'OPHTHALMOLOGY': 28.57, 'ANATOMY': 30.82, 'PATHOLOGY': 29.07, 'PHYSIOLOGY': 20.45, 'DENTAL': 30.09, 'RADIOLOGY': 14.29, 'BIOCHEMISTRY': 22.31, 'ANAESTHESIA': 26.09, 'GYNAECOLOGY': 24.84, 'PHARMACOLOGY': 32.02, 'SOCIAL': 31.11, 'PEDIATRICS': 31.82, 'ENT': 28.95, 'SURGERY': 31.45, 'MICROBIOLOGY': 26.03, 'FORENSIC': 16.28, 'PSYCHIATRY': 22.22, 'SKIN': 40.0, 'ORTHOPAEDICS': 21.43, 'UNKNOWN': 0.0}}
- average: 24.57%
MELT-TinyLlama-1.1B-Chat-v1.0
- medqa: {'base': {'Average': 29.5, 'STEP-1': 28.17, 'STEP-2&3': 31.03}}
- mausmle: {'base': {'Average': 21.51, 'STEP-1': 27.06, 'STEP-2': 19.54, 'STEP-3': 18.69}}
- medmcqa: {'base': {'Average': 32.84, 'MEDICINE': 27.72, 'OPHTHALMOLOGY': 38.1, 'ANATOMY': 39.73, 'PATHOLOGY': 32.56, 'PHYSIOLOGY': 35.61, 'DENTAL': 32.23, 'RADIOLOGY': 41.07, 'BIOCHEMISTRY': 33.06, 'ANAESTHESIA': 39.13, 'GYNAECOLOGY': 22.88, 'PHARMACOLOGY': 32.58, 'SOCIAL': 26.67, 'PEDIATRICS': 34.09, 'ENT': 42.11, 'SURGERY': 33.47, 'MICROBIOLOGY': 30.14, 'FORENSIC': 41.86, 'PSYCHIATRY': 55.56, 'SKIN': 60.0, 'ORTHOPAEDICS': 35.71, 'UNKNOWN': 100.0}}
- average: 27.95%
テストデータ、要因、および指標
テストデータ
免責事項
このような大規模言語モデルの使用は、いかなる保証も伴わずに提供されます。情報の正確性、完全性、および信頼性を確保するために尽力していますが、これらのモデルは不正確、古くなった、または特定の目的に不適切な応答を生成する可能性があります。ユーザーは、これらのモデルが生成する情報に依存する際には、裁量と判断を行使することを推奨します。出力は、専門的、法的、医療的、財務的、またはその他の形式のアドバイスとして考慮されるべきではありません。特定の質問や重要な意思決定については、専門家のアドバイスを求めるか、適切な情報源を参照することをお勧めします。これらのモデルの作成者、開発者、および提供者は、これらのモデルが提供する情報の使用、依存、または解釈に起因する損害、損失、またはその他の結果に対して一切の責任を負いません。ユーザーは、生成されたコンテンツとのやり取りおよび使用について完全な責任を負います。これらの言語モデルを使用することにより、ユーザーは、開発者、提供者、および関連会社を、その使用に起因する一切の請求、損害、または責任から免責することに同意します。これらのモデルは常に進化しており、その機能、制限、および出力は事前の通知なしに変更される可能性があることに注意してください。この言語モデルを使用することは、この免責事項の受け入れと理解を意味します。
📄 ライセンス
Apache 2.0