BioMed_NERオープンソース生物医学NERモデル - 臨床テキストの疾病と薬物の情報を無料で抽出

ホーム

Biomed NER

Helios9によって開発

DeBERTaV3ベースの生物医学的固有表現認識モデルで、臨床テキストから疾患や薬剤などの構造化情報を抽出するために特別に設計されています

シーケンスラベリング

Safetensors

英語#生物医学エンティティ認識 #DeBERTaV3アーキテクチャ #臨床テキスト解析

ダウンロード数 554

リリース時間 : 11/11/2024

モデル概要

このモデルは、疾患、医療処置、薬剤、解剖学用語などの生物医学的エンティティを効果的に認識し、医療健康分野のテキスト分析に適しています

モデル特徴

分離注意メカニズム

独自の分離注意メカニズムにより、語彙内容と位置情報を別々にエンコードし、生物医学用語の文脈的意味を正確に捉えます

深い文脈理解

改良された埋め込み層により、複雑な医学文の構造と専門用語間の階層関係を効果的に理解できます

効率的なファインチューニング能力

事前学習済みのDeBERTaV3ベースモデルを基に、生物医学分野のデータで効率的にファインチューニングできます

モデル能力

生物医学的エンティティの認識

臨床テキストからの構造化情報抽出

疾患/薬剤/解剖学用語のタグ付け

使用事例

医療健康

電子カルテ分析

非構造化電子カルテから重要な臨床情報を抽出します

カルテ情報の構造化処理を実現

医学研究支援

生物医学研究のための構造化データセットを構築します

研究データ収集効率の向上

🚀 BIOMed_NER: 生物医学エンティティの名前付きエンティティ認識

BIOMed_NERは、DeBERTaV3を使用して生物医学エンティティを識別する名前付きエンティティ認識（NER）モデルです。このモデルは、疾患、手技、薬剤、解剖学的用語など、臨床テキストから構造化情報を抽出するのに役立ちます。

🚀 クイックスタート

このモデルは、生物医学分野における名前付きエンティティ認識タスクに特化しています。DeBERTaV3の強力な機能を活用し、生物医学エンティティを高精度に識別します。

✨ 主な機能

なぜ生物医学NERにDeBERTaを選んだのか？

DeBERTa（Decoding-enhanced BERT with Disentangled Attention）は、NLPモデルアーキテクチャにおける大きな進歩を表しており、特に生物医学テキストのような複雑なドメインでの名前付きエンティティ認識（NER）のような微妙なタスクに適しています。以下は、BIOMed_NERにDeBERTaが最適な選択肢である理由です。

高度な分離型アテンションメカニズム
- DeBERTaは、ユニークな分離型アテンションメカニズムを使用して、単語の内容と位置を別々にエンコードします。これにより、DeBERTaは生物医学用語の文脈的な意味を捉え、複雑な文構造を理解することができます。これは、重複または非常に特定的な用語を持つ生物医学エンティティを正確にタグ付けするために不可欠です。
豊富な文脈理解のための強化された埋め込み
- 生物医学テキストには、長い文、専門用語、およびエンティティ間の階層関係（例：「糖尿病」と「1型糖尿病」）が含まれることが多いです。DeBERTaの改善された埋め込み層により、従来のトランスフォーマーモデルよりもこれらの微妙な関係をうまく捉えることができ、文脈が豊富な医療文書を理解するのに特に有効です。
下流のNLPタスクでの優れた性能
- DeBERTaは、GLUEやSQuADなどのNLPベンチマークで常に上位にランクインしており、タスク間での汎化能力を証明しています。この高い性能は、BIOMed_NERにとって特に有益です。生物医学エンティティ間の微妙な違いを正確に認識することで、非構造化臨床ノートから抽出される構造化データの品質を大幅に向上させることができます。
最適な転移学習のための事前学習
- 「base」DeBERTaV3バリアントを活用することで、大量のテキストで事前学習されたモデルを利用でき、特定ドメインの生物医学データでの微調整に優れた基盤を提供します。この事前学習とデータセットでの微調整により、BIOMed_NERは疾患や薬剤から臨床イベントや解剖学的構造まで、生物医学エンティティを正確に識別することができます。
大規模な生物医学データセットの効率的な微調整
- DeBERTaは、精度と効率の両方が最適化されており、過度の計算リソースを必要とせずに大規模で複雑なデータセットを学習しやすくなっています。これは、モデル開発中の反復を高速化し、よりアクセスしやすい展開パイプラインを提供します。

ハイパーパラメータ

属性	详情
モデルタイプ	`microsoft/deberta-v3-base`
学習率	`3e-5`
バッチサイズ	`8`
勾配蓄積ステップ	`2`
スケジューラ	ウォームアップ付きコサインスケジュール
エポック数	`30`
オプティマイザ	AdamW（ベータ `(0.9, 0.999)`、イプシロン `1e-8`）

💻 使用例

基本的な使用法

from transformers import pipeline

# モデルの読み込み
model_path = "Helios9/BIOMed_NER"
pipe = pipeline(
    task="token-classification",
    model=model_path,
    tokenizer=model_path,
    aggregation_strategy="simple"
)

# パイプラインのテスト
text = ("A 48-year-old female presented with vaginal bleeding and abnormal Pap smears. "
        "Upon diagnosis of invasive non-keratinizing SCC of the cervix, she underwent a radical "
        "hysterectomy with salpingo-oophorectomy which demonstrated positive spread to the pelvic "
        "lymph nodes and the parametrium.")
result = pipe(text)
print(result)

高度な使用法

def merge_consecutive_entities(entities, text):
    entities = sorted(entities, key=lambda x: x['start'])
    merged_entities = []
    current_entity = None

    for entity in entities:
        if current_entity is None:
            current_entity = entity
        elif (
            entity['entity_group'] == current_entity['entity_group'] and
            (entity['start'] <= current_entity['end'])
        ):
            # テキスト内の開始と終了位置に基づいてマージ
            current_entity['end'] = max(current_entity['end'], entity['end'])
            current_entity['word'] = text[current_entity['start']:current_entity['end']]
            current_entity['score'] = (current_entity['score'] + entity['score']) / 2  
        else:
            merged_entities.append(current_entity)
            current_entity = entity
    if current_entity:
        merged_entities.append(current_entity)

    return merged_entities

from transformers import pipeline

# モデルの読み込み
model_path = "Helios9/BIOMed_NER"
pipe = pipeline(
    task="token-classification",
    model=model_path,
    tokenizer=model_path,
    aggregation_strategy="simple"
)

# パイプラインのテスト
text = ("A 48-year-old female presented with vaginal bleeding and abnormal Pap smears. "
        "Upon diagnosis of invasive non-keratinizing SCC of the cervix, she underwent a radical "
        "hysterectomy with salpingo-oophorectomy which demonstrated positive spread to the pelvic "
        "lymph nodes and the parametrium.")
result = pipe(text)
final_result=merge_consecutive_entities(result,text)
print(final_result)

出力例

出力は、エンティティタイプ、スコア、およびテキスト内の開始/終了位置を持つ認識されたエンティティのリストになります。以下はサンプルの出力形式です。

[
    {
        "entity_group": "Disease_disorder",
        "score": 0.98,
        "word": "SCC of the cervix",
        "start": 63,
        "end": 80
    },
    ...
]