🚀 BioBERT Disease NER Model
このモデルは、信頼性の高いNCBI Diseaseデータセットを使用してBioBERTをファインチューニングした、最も強力で高精度な疾患固有表現抽出(NER)モデルの一つです。このモデルは、驚異的な98.64%の正解率と印象的なF1スコア89.04% を達成し、疾患抽出タスクにおいて高い性能を発揮します。
臨床および生物医学テキストからの疾患、症状、および医学的状態の正確な識別に最適化されています。
✨ 主な機能
- 臨床および生物医学文書からの疾患の言及を抽出します。
- 医療AIシステムや医学研究の自動化をサポートします。
📦 インストール
このモデルは、Hugging Face Transformersライブラリを使用して利用できます。
💻 使用例
基本的な使用法
from transformers import pipeline
nlp = pipeline(
"ner",
model="Ishan0612/biobert-ner-disease-ncbi",
tokenizer="Ishan0612/biobert-ner-disease-ncbi",
aggregation_strategy="simple"
)
text = "The patient has signs of diabetes mellitus and chronic obstructive pulmonary disease."
results = nlp(text)
for entity in results:
print(f"{entity['word']} - ({entity['entity_group']})")
このコードは以下の出力を生成します。
抽出された医療関連の固有表現:
the patient has signs of - (LABEL_0)
diabetes - (LABEL_1)
mellitus - (LABEL_2)
and - (LABEL_0)
chronic - (LABEL_1)
obstructive pulmonary disease - (LABEL_2)
. - (LABEL_0)
高度な使用法
📚 ドキュメント
モデルの性能
- 適合率(Precision): 86.80%
- 再現率(Recall): 91.39%
- F1スコア: 89.04%
- 正解率(Accuracy): 98.64%
✅ 6,800以上の注釈付きサンプルを使って5エポックにわたってファインチューニングされ、一貫して高い検証スコアを達成しています。
想定される用途
- 臨床および生物医学文書からの疾患の言及を抽出します。
- 医療AIシステムや医学研究の自動化をサポートします。
学習データ
このモデルは、NCBI diseaseデータセットを使って学習されました。このデータセットは、6892の疾患の言及が含まれる793のPubMed抄録で構成されています。
注意事項
注: LABEL_0は「O」(Outside)に対応し、LABEL_1は「B-Disease」、LABEL_2は「I-Disease」に対応しており、BIOタグ付け形式に従っています。
🔧 技術詳細
このモデルは、dmis-lab/biobert-base-cased-v1.1をベースモデルとして使用し、トークン分類のパイプラインタグを持っています。
📄 ライセンス
このモデルは、元のBioBERT (dmis-lab/biobert-base-cased-v1.1
) と同じく、Apache 2.0 Licenseの下でライセンスされています。
引用
@article{lee2020biobert,
title={BioBERT: a pre-trained biomedical language representation model for biomedical text mining},
author={Lee, Jinhyuk and Yoon, Wonjin and Kim, Sungdong and Kim, Donghyeon and So, Chan Ho and Kang, Jaewoo},
journal={Bioinformatics},
volume={36},
number={4},
pages={1234--1240},
year={2020},
publisher={Oxford University Press}
}
属性 |
詳情 |
モデルタイプ |
token-classification |
学習データ |
このモデルは、NCBI diseaseデータセットを使って学習されました。このデータセットは、6892の疾患の言及が含まれる793のPubMed抄録で構成されています。 |
評価指標 |
F1、Precision、Recall |
ベースモデル |
dmis-lab/biobert-base-cased-v1.1 |
パイプラインタグ |
token-classification |
ライセンス |
Apache 2.0 |