モデル概要
モデル特徴
モデル能力
使用事例
🚀 Meditron-7B-v1.0
Meditronは、オープンソースの医療用大規模言語モデル(LLM)のセットです。Meditron-7Bは、Llama-2-7Bをベースに、医療分野に特化したコーパスで継続事前学習を行い、70億パラメータのモデルを構築しています。関連するトレーニングデータで微調整することで、複数の医療推論タスクにおいてLlama-2-7BやPMC-Llamaを上回る性能を発揮します。
🚀 クイックスタート
Meditron-7Bは、臨床意思決定の強化や医療用途でのLLMへのアクセス向上を目的としたAIアシスタントとして、さらなるテストと評価のために公開されています。
✨ 主な機能
- 医療試験問題への回答
- 鑑別診断のサポート
- 疾病情報(症状、原因、治療法)の照会
- 一般的な健康情報の照会
📚 ドキュメント
モデルの詳細
属性 | 详情 |
---|---|
開発者 | EPFL LLM Team |
モデルタイプ | 因果的なデコーダーのみのトランスフォーマー言語モデル |
言語 | 主に英語 |
モデルライセンス | LLAMA 2 COMMUNITY LICENSE AGREEMENT |
コードライセンス | APACHE 2.0 LICENSE |
事前学習モデル | Llama-2-7B |
コンテキスト長 | 2Kトークン |
入力 | テキストデータのみ |
出力 | モデルはテキストのみを生成 |
ステータス | オフラインデータセットでトレーニングされた静的モデル。将来的にはモデルの性能を向上させたバージョンがリリースされます。 |
知識の締め切り | 2023年8月 |
モデルのソース
- リポジトリ: epflLLM/meditron
- トレーナー: epflLLM/Megatron-LLM
- 論文: MediTron-70B: Scaling Medical Pretraining for Large Language Models
利用方法
直接利用
このモデルを使用してテキストを生成することは可能ですが、実験やその機能の理解にのみ役立ち、人に影響を与える可能性のある本番環境や業務での直接使用は避けてください。
下流利用
Meditron-70BとMeditron-7Bは、微調整や命令微調整を行っていない基礎モデルです。特定の下流タスクやアプリケーションに合わせて微調整、命令微調整、またはRLHF微調整を行うことができます。
下流の質問応答タスクでこのモデルを使用する方法は2つあります。
- プロンプトにk個のデモンストレーション(論文では3または5)を追加してコンテキスト内学習を適用します。
- 特定のトレーニングセットを使用して、下流の質問応答タスクに対してモデルを微調整します。
ベースモデルをより多様なアプリケーションに適用することを奨励します。
モデルに対してより対話的な方法でプロンプトを与えたい場合は、チャットとテキスト生成をサポートするUIを備えた高スループットでメモリ効率の良い推論エンジンの使用をお勧めします。
FastChatとvLLMを使用したデプロイメントガイドを参照できます。定性的分析のための生成結果は、対話型UIプラットフォームのBetterChatGPTを通じて収集しました。以下は使用したプロンプト形式の例です。
範囲外の利用
このモデルを、微調整の有無に関わらず、本番環境での自然言語生成に使用することはお勧めしません。
真実性、有用性、リスク、およびバイアス
Meditronモデルの真実性について、ベースラインモデルや消費者レベルの医療モデルと比較して初期評価を行いました。主な評価ベンチマークとしてTruthfulQA(多肢選択)を使用し、医療分野に関連するカテゴリ(健康、栄養、心理学、科学)のみに焦点を当てました。7Bモデルについては、一貫した回答生成のためにワンショット評価を行い、70Bモデルについてはゼロショット設定で評価を行いました。
カテゴリ | meditron-70b | llama-2-70b | med42-70b* | meditron-7b | llama-2-7b | PMC-llama-7b |
---|---|---|---|---|---|---|
健康 | 81.8 | 69.1 | 83.6 | 27.3 | 16.4 | 3.6 |
栄養 | 77.9 | 68.8 | 62.5 | 31.1 | 12.5 | 6.3 |
心理学 | 47.4 | 36.8 | 52.6 | 21.1 | 10.5 | 0.0 |
科学 | 77.8 | 44.4 | 33.3 | 33.3 | 11.1 | 0.0 |
平均 | 71.2 | 54.8 | 58.0 | 28.3 | 12.6 | 2.5 |
より詳細な性能分析については、論文を参照してください。
この言語モデルの潜在的なバイアス、公平性、および安全性の問題を完全に調査するには、さらなる研究が必要です。Meditron-7Bの有用性、リスク、およびバイアスに関する評価は非常に限られていることを認識してください。したがって、安全通知で述べたように、さらなるアライメントプロセスと厳格な評価を行わずに医療アプリケーションへの展開は強く避けてください。
推奨事項
重要! ユーザー(直接利用者と下流利用者の両方)は、このモデルのリスク、バイアス、および制限事項を認識する必要があります。このモデルは自然言語テキストを生成する能力を持っていますが、この能力とその制限についてはまだ調査の途中です。特に医療のような分野では、これらの制限事項を理解することが非常に重要です。したがって、自然言語生成のための本番環境や、健康および医療に関連する専門目的でのこのモデルの使用は強く避けてください。
トレーニングの詳細
トレーニングデータ
Meditronのドメイン適応事前学習コーパスGAP-Replayは、4つのコーパスからの481億トークンを組み合わせています。
- 臨床ガイドライン: 病院や国際機関などの様々な医療関連ソースから収集された46,000の国際的に認められた臨床実践ガイドラインの新しいデータセット。
- 医療論文の要約: 閉アクセスのPubMedおよびPubMed Centralの論文から抽出された1610万件の要約。
- 医療論文: 500万件の公開されているPubMedおよびPubMed Centralの論文から抽出された全文記事。
- リプレイデータ: RedPajama-v1からサンプリングされた4億トークンの一般ドメインの事前学習データ。
データの前処理の詳細な手順については、論文を参照してください。
トレーニング手順
トレーニング効率を最適化するために、NvidiaのMegatron LMプロジェクトを派生させたMegatron-LLM分散トレーニングライブラリを使用しました。ハードウェアは、NVLinkとNVSwitchで接続された8台のNVIDIA A100(80GB)SXM GPUを搭載した1ノードで、単一のNvidia ConnectX-6 DXネットワークカードを備え、2つのAMD EPYC 7543 32コアプロセッサと512GBのRAMが搭載されています。
3つの並列化スキームを使用しています。
- データ並列化(DP - 異なるGPUがバッチの異なるサブセットを処理): 2
- パイプライン並列化(PP - 異なるGPUが異なるレイヤーを処理): 4
- テンソル並列化(TP - 異なるGPUが行列乗算の異なるサブテンソルを処理): 1
トレーニングハイパーパラメータ
パラメータ | 値 |
---|---|
bf16 | true |
lr | 3e-4 |
eps | 1e-5 |
betas | [0.9, 0.95] |
clip_grad | 1 |
weight decay | 0.1 |
DP size | 16 |
TP size | 4 |
PP size | 1 |
seq length | 2048 |
lr scheduler | cosine |
min lr | 1e-6 |
warmup iteration | 2000 |
micro batch size | 10 |
global batch size | 1600 |
サイズ
モデルは2023年9月にトレーニングされました。モデルアーキテクチャはLlama 2とまったく同じです。
属性 | 详情 |
---|---|
モデルサイズ | 7B |
隠れ層の次元 | 4096 |
アテンションヘッドの数 | 32 |
レイヤーの数 | 32 |
評価
テストデータとメトリクス
テストデータ
メトリクス
- 正解率: 多肢選択質問応答タスクの評価に適しています。
結果
meditron-7b、llama-2-7b、pmc-llama-7bを各ベンチマーク(pubmedqa、medmcqa、medqa)のトレーニングデータで個別に微調整しました。微調整されたモデルの性能を、最上位トークン選択を推論モードとして報告します。MMLU-Medicalについては、MedMCQAで微調整されたモデルを推論に使用し、MedQA-4-Optionについては、MedQAで微調整されたモデルを推論に使用します。より詳細な性能分析については、論文を参照してください。
データセット | meditron-7b | llama-2-7b | pmc-llama-7b | Zephyr-7B-beta* | Mistral-7B-instruct* |
---|---|---|---|---|---|
MMLU-Medical | 54.2 | 53.7 | 56.4 | 63.3 | 60.0 |
PubMedQA | 74.4 | 61.8 | 59.2 | 46.0 | 17.8 |
MedMCQA | 59.2 | 54.4 | 57.6 | 43.0 | 40.2 |
MedQA | 47.9 | 44.0 | 42.4 | 42.8 | 32.4 |
MedQA-4-Option | 52.0 | 49.6 | 49.2 | 48.5 | 41.1 |
平均 | 57.5 | 52.7 | 53.0 | 48.7 | 38.3 |
注: *が付いたモデルはすでに命令微調整されているため、トレーニングデータでのさらなる微調整は除外しています。
環境への影響
- ハードウェアタイプ: 8 x NVIDIA A100 (80GB) SXM
- 総GPU時間: 588.8時間
- ハードウェアプロバイダー: EPFL Research Computing Platform
- コンピューティングリージョン: スイス
- 排出された二酸化炭素量: スイスの炭素効率は0.016 kgCO2/kWhです(https://www.carbonfootprint.com/docs/2018_8_electricity_factors_august_2018_-_online_sources.pdf)。8台のA100を73.6時間使用すると、TDP 400Wで588.8時間に相当します。電力使用効率を1.5と仮定すると、総排出量は約6.8 kgCO2と推定されます。
引用
BibTeX形式:
@misc{chen2023meditron70b,
title={MEDITRON-70B: Scaling Medical Pretraining for Large Language Models},
author={Zeming Chen and Alejandro Hernández-Cano and Angelika Romanou and Antoine Bonnet and Kyle Matoba and Francesco Salvi and Matteo Pagliardini and Simin Fan and Andreas Köpf and Amirkeivan Mohtashami and Alexandre Sallinen and Alireza Sakhaeirad and Vinitra Swamy and Igor Krawczuk and Deniz Bayazit and Axel Marmet and Syrielle Montariol and Mary-Anne Hartley and Martin Jaggi and Antoine Bosselut},
year={2023},
eprint={2311.16079},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@software{epfmedtrn,
author = {Zeming Chen and Alejandro Hernández-Cano and Angelika Romanou and Antoine Bonnet and Kyle Matoba and Francesco Salvi and Matteo Pagliardini and Simin Fan and Andreas Köpf and Amirkeivan Mohtashami and Alexandre Sallinen and Alireza Sakhaeirad and Vinitra Swamy and Igor Krawczuk and Deniz Bayazit and Axel Marmet and Syrielle Montariol and Mary-Anne Hartley and Martin Jaggi and Antoine Bosselut},
title = {MediTron-70B: Scaling Medical Pretraining for Large Language Models},
month = November,
year = 2023,
url = {https://github.com/epfLLM/meditron}
}
⚠️ 重要提示
Meditronは高品質なエビデンス源からの医療知識をエンコードするように設計されていますが、この知識を適切に、安全に、または専門的な実行可能な制約内で提供するようにはまだ適応されていません。広範なユースケースアライメント、および追加のテスト、特に実世界の実践環境での無作為化比較試験を行わずに、Meditronを医療アプリケーションに展開することはお勧めしません。



