🚀 医用テキスト要約モデル
このモデルは、放射線科医と他の医療提供者間のコミュニケーションを改善するため、正確で有益な放射線学的所見の印象を生成するのに役立ちます。
🚀 クイックスタート
以下のコードを使用して、モデルを使い始めましょう。
from transformers import AutoTokenizer, AutoModelForMaskedLM, AutoModelForSeq2SeqLM
from transformers import DataCollatorForSeq2Seq
model_checkpoint = "attach your trained model here"
model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
from transformers import SummarizationPipeline
summarizer = SummarizationPipeline(model=model, tokenizer=tokenizer)
output= summarizer("heart size normal mediastinal hilar contours remain stable small right pneumothorax remains unchanged surgical lung staples overlying left upper lobe seen linear pattern consistent prior upper lobe resection soft tissue osseous structures appear unremarkable nasogastric endotracheal tubes remain satisfactory position atelectatic changes right lower lung field remain unchanged prior study")
✨ 主な機能
このモデルは、放射線学的所見を印象に要約するために、カスタムデータセットで学習されたBioBartベースのシーケンス-to-シーケンスモデルです。
📚 ドキュメント
モデルの詳細
モデルの説明
このモデルは、放射線学的所見を印象に要約するためにカスタムデータセットで学習されたBioBartベースのシーケンス-to-シーケンスモデルです。学習には70,000件の放射線学的レポートを使用しました。
- 開発者: [Engr. Hamza Iqbal Malik (UET TAXILA)]
- 共有者 : [Engr. Hamza Iqbal Malik (UET TAXILA)]
- モデルの種類: [医用テキスト要約モデル]
- 言語 (NLP): [英語]
- ファインチューニング元のモデル: [GanjinZero/biobart-v2-base]
モデルのソース
- リポジトリ: [GanjinZero/biobart-v2-base]
- 論文: [BioBART: Pretraining and Evaluation of A Biomedical Generative Language Model]
- デモ: [hamzamalik11/radiology_summarizer]
用途
このモデルは、放射線学的印象を生成するために使用されることを意図しています。他の目的には使用しないでください。
直接的な使用
このモデルは、放射線学的レポートから印象を生成するために直接使用できます。ユーザーは放射線学的レポートの所見を入力すると、モデルはその情報に基づいて要約された印象を生成します。
想定外の使用
このモデルは、放射線学的レポートから印象を生成する以外の目的には使用しないでください。放射線学的レポートの要約以外のタスクには適していません。
推奨事項
ユーザーは、生成された印象を臨床的な意思決定に使用する際に、モデルの制限と潜在的なバイアスを認識しておく必要があります。具体的な推奨事項を提供するには、さらなる情報が必要です。
学習の詳細
学習データ
学習データは、70,000件の放射線学的レポートからなるカスタムデータセットでした。データは、個人情報や機密情報を削除するためにクリーニングされました。また、トークン化と正規化も行われました。学習データは、学習セットと検証セットに分割されました。学習セットは63,000件の放射線学的レポートからなり、検証セットは7,000件の放射線学的レポートからなりました。
学習手順
このモデルは、Hugging Face Transformersライブラリ (https://huggingface.co/transformers/) を使用して学習されました。AdamWオプティマイザーを使用し、学習率は5.6e-5でした。モデルは10エポックで学習されました。
学習ハイパーパラメータ
- 学習方式:
- [evaluation_strategy="epoch"]
- [learning_rate=5.6e-5]
- [per_device_train_batch_size=batch_size //4]
- [per_device_eval_batch_size=batch_size //4]
- [weight_decay=0.01]
- [save_total_limit=3]
- [num_train_epochs=num_train_epochs //4]
- [predict_with_generate=True //4]
- [logging_steps=logging_steps]
- [push_to_hub=False]
評価
テストデータ、要因、メトリクス
テストデータ
テストデータは、10,000件の放射線学的レポートからなりました。
要因
以下の要因が評価されました。
- [-ROUGE-1]
- [-ROUGE-2]
- [-ROUGE-L]
- [-ROUGELSUM]
メトリクス
以下のメトリクスがモデルの評価に使用されました。
- [-ROUGE-1 score: 44.857]
- [-ROUGE-2 score: 29.015]
- [-ROUGE-L score: 42.032]
- [-ROUGELSUM score: 42.038]
結果
このモデルは、テストデータでROUGE-Lスコア42.032を達成しました。これは、モデルが人間が書いた要約に非常に類似した要約を生成できることを示しています。
要約
このモデルは、70,000件の放射線学的レポートからなるカスタムデータセットで学習されました。モデルは、テストデータでROUGE-Lスコア42.032を達成しました。これは、モデルが人間が書いた要約に非常に類似した要約を生成できることを示しています。
モデルカードの作成者
モデルカードの連絡先
情報テーブル
属性 |
詳情 |
モデルの種類 |
医用テキスト要約モデル |
学習データ |
70,000件の放射線学的レポートからなるカスタムデータセット |