🚀 大規模言語モデルを用いたPETレポートの自動パーソナライズ印象生成 📄✍
このプロジェクトは、PETレポートの所見を要約するために微調整された大規模言語モデルを使用し、パーソナライズされた印象を自動生成するものです。
🚀 クイックスタート
モデルの概要
これはPETレポートの所見を要約するために微調整されたPEGASUSモデルです。
PETレポート要約用の微調整された大規模言語モデル(LLM)を確認するには、以下のリンクを参照してください。
概要
目的:微調整された大規模言語モデル(LLM)が全身PETレポートに対して正確でパーソナライズされた印象を生成できるかどうかを判断すること。
材料と方法:12の言語モデルをPETレポートのコーパスで教師強制アルゴリズムを使用して訓練しました。レポートの所見を入力とし、臨床印象を参照としました。追加の入力トークンは読影医のIDをエンコードし、モデルが医師固有の報告スタイルを学習できるようにします。当施設で2010年から2022年まで収集された37,370件の過去のPETレポートをコーパスとして使用しました。最適なLLMを特定するために、30の評価指標を2人の核医学医の品質スコアと比較し、最も一致する指標を持つモデルを専門家評価のために選択しました。データのサブセットでは、モデルが生成した印象と元の臨床印象を3人の核医学医が6つの品質次元と全体的な有用性スコア(5段階)に基づいて評価しました。各医師は自分のレポート12件と他の医師のレポート12件をレビューしました。統計分析にはブートストラップ再サンプリングを使用しました。
結果:すべての評価指標の中で、ドメイン適応型のBARTScoreとPEGASUSScoreが医師の好みと最も高いスピアマンのρ相関(それぞれ0.568と0.563)を示しました。これらの指標に基づいて、微調整されたPEGASUSモデルが最適なLLMとして選択されました。医師が自分のスタイルでPEGASUSが生成した印象をレビューしたとき、89%が臨床的に許容できるとされ、平均有用性スコアは4.08/5でした。医師はこれらのパーソナライズされた印象を、他の医師が口述した印象と全体的な有用性で同等と評価しました(4.03、P = 0.41)。
結論:PEGASUSが生成したパーソナライズされた印象は臨床的に有用であり、PET報告の迅速化におけるその可能性を強調しています。
論文全文を読む
💻 使用例
基本的な使用法
finetuned_model = "xtie/PEGASUS-PET-impression"
tokenizer = AutoTokenizer.from_pretrained(finetuned_model)
model = AutoModelForSeq2SeqLM.from_pretrained(finetuned_model, ignore_mismatched_sizes=True).eval()
findings_info =
"""
Description: PET CT WHOLE BODY
Radiologist: James
Findings:
Head/Neck: xxx Chest: xxx Abdomen/Pelvis: xxx Extremities/Musculoskeletal: xxx
Indication:
The patient is a 60-year old male with a history of xxx
"""
inputs = tokenizer(findings_info.replace('\n', ' '),
padding="max_length",
truncation=True,
max_length=1024,
return_tensors="pt")
input_ids = inputs.input_ids.to("cuda")
attention_mask = inputs.attention_mask.to("cuda")
outputs = model.generate(input_ids,
attention_mask=attention_mask,
max_new_tokens=512,
num_beam_groups=1,
num_beams=4,
do_sample=False,
diversity_penalty=0.0,
num_return_sequences=1,
length_penalty=2.0,
no_repeat_ngram_size=3,
early_stopping=True
)
output_str = tokenizer.decode(outputs,
skip_special_tokens=True)
性能指標
詳細な評価結果については、論文を参照してください。
指標 |
値 |
ROUGE-1 |
53.8 |
ROUGE-2 |
30.9 |
ROUGE-L |
40.0 |
BLEU |
24.7 |
BERTScore |
0.744 |
主な特徴
- 微調整された大規模言語モデルは、PETの所見に基づいて臨床的に有用なパーソナライズされた印象を提供します。
- 私たちの知る限り、これは全身PETレポートの印象生成を自動化する最初の試みです。
ハードウェア
モデルはNVIDIA A100 GPUで訓練されました。
📚 ドキュメント
追加リソース