EpiExtract4GARD - v2オープンソースモデル - 希少疾患の概要疫学情報を無料で高精度に識別

ホーム

Epiextract4gard V2

ncatsによって開発

BioBERTを微調整した命名実体認識モデルで、希少疾患の概要に含まれる疫学情報の識別に特化しています。

シーケンスラベリング

Transformers

英語オープンソースライセンス:その他 #希少疾患疫学 #生物医学実体認識 #BioBERT微調整

ダウンロード数 34

リリース時間 : 3/2/2022

モデル概要

このモデルは、テキスト中の場所（LOC）、疫学タイプ（EPI）、疫学率（STAT）を識別するために使用され、特に希少疾患分野の疫学データの抽出を対象としています。

モデル特徴

疫学情報抽出

希少疾患分野の疫学データに特化して最適化されており、発病率、有病率などの重要な指標を正確に識別できます。

弱教師付き学習

弱教師付き学習方法を用いて訓練されており、ラベル付けされたデータが限られたシナリオに適応します。

複数実体認識

場所、疫学タイプ、疫学率の3種類の実体を同時に識別できます。

モデル能力

疫学タイプの識別

疫学率データの抽出

使用事例

医学研究

希少疾患疫学研究

医学文献から希少疾患の発病率、有病率などのデータを抽出する

「10万人の出生児あたり4.05例」などの疫学データを自動で識別できます

疾患監視

特定地域の特定疾患の発病状況を追跡する

「アイスランドでは27人の患者がPKUと診断されている」などの症例情報を識別できます

公衆衛生

疾患負担評価

異なる地域の疾患負担状況を評価する

異なる地域の発病率の差異を比較できます

🚀 EpiExtract4GARD-v2

EpiExtract4GARD-v2 は、場所（LOC）、疫学的タイプ（EPI）、疫学的比率（STAT）の 固有表現抽出 にすぐに使用できる、微調整された BioBERT-base-cased モデルです。このモデルは、希少疾患のアブストラクトからの疫学情報に関する EpiSet4NER-v2 で微調整されています。弱教師付きの学習方法やデータセットのバイアスと制限の詳細については、データセットのドキュメントを参照してください。パイプライン全体の詳細については、GitHub の EpiExtract4GARD を参照してください。

🚀 クイックスタート

✨ 主な機能

場所（LOC）、疫学的タイプ（EPI）、疫学的比率（STAT）の固有表現抽出が可能。
EpiSet4NER-v2 で微調整されたモデルで、希少疾患のアブストラクトからの疫学情報を抽出できる。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコードを使用して、Transformers ライブラリをインストールできます。

pip install transformers

💻 使用例

基本的な使用法

このモデルは、右側の Hosted inference API を使用して、このテスト文で使用できます。

from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer
model = AutoModelForTokenClassification.from_pretrained("ncats/EpiExtract4GARD")
tokenizer = AutoTokenizer.from_pretrained("ncats/EpiExtract4GARD")
NER_pipeline = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy='simple')

sample = "27 patients have been diagnosed with PKU in Iceland since 1947. Incidence 1972-2008 is 1/8400 living births."
NER_pipeline(sample)

高度な使用法

GitHub から classify_abs.py、extract_abs.py、および gard-id-name-synonyms.json をダウンロードすると、この追加コードでテストできます。

import pandas as pd
import extract_abs
import classify_abs
pd.set_option('display.max_colwidth', None)

NER_pipeline = extract_abs.init_NER_pipeline()
GARD_dict, max_length = extract_abs.load_GARD_diseases()
nlp, nlpSci, nlpSci2, classify_model, classify_tokenizer = classify_abs.init_classify_model()


def search(term, num_results = 50):
    return extract_abs.search_term_extraction(term, num_results, NER_pipeline, GARD_dict, max_length, nlp, nlpSci, nlpSci2, classify_model, classify_tokenizer)
    
a = search(7058)
a

b = search('Santos Mateus Leal syndrome')
b

c = search('Fellman syndrome')
c

d = search('GARD:0009941')
d

e = search('Homocystinuria')
e

📚 ドキュメント

モデルの説明

このモデルは、EpiSet4NER で訓練されています。弱教師付きの学習方法やデータセットのバイアスと制限の詳細については、データセットのドキュメントを参照してください。訓練データセットは、エンティティの開始と継続を区別するため、同じタイプのエンティティが連続している場合でも、モデルは2番目のエンティティの開始位置を出力できます。データセットと同様に、各トークンは次のクラスのいずれかに分類されます。

略称	説明
O	固有表現の外
B-LOC	場所の開始
I-LOC	場所の内部
B-EPI	疫学的タイプの開始（例：「発生率」、「有病率」、「発生」）
I-EPI	開始トークンではない疫学的タイプ
B-STAT	疫学的比率の開始
I-STAT	疫学的比率の内部
+More	説明待ち

EpiSet 統計

EpiSet4NER データセットによる制限に加えて、このモデルは BERT ベースのモデルがサブワード埋め込みを使用するため、数値処理能力に制限があります。これは、疫学的比率の識別に重要であり、エンティティレベルの結果を制限します。最近の数値処理技術を使用して、基礎となるデータセットを改善せずにモデルの性能を向上させることができます。

訓練手順

このモデルは、AWS EC2 p3.2xlarge で訓練されました。これは、単一の Tesla V100 GPU を使用し、以下のハイパーパラメータで訓練されました。

4エポックの訓練（AdamW ウェイトディケイ = 0.05）
バッチサイズ = 16
最大シーケンス長 = 192
モデルは1文ずつ入力されました。

🔧 技術詳細

このモデルは、BioBERT-base-cased をベースにしています。BioBERT は、生物学的なテキストに特化した BERT モデルで、医学や生物学の分野での固有表現抽出に優れた性能を発揮します。このモデルは、EpiSet4NER-v2 で微調整されており、希少疾患のアブストラクトからの疫学情報を抽出するために最適化されています。