gliner-biomed-large-v1.0オープンソース生物医学NERモデル - ゼロ小サンプル性能での効率的なエンティティ認識の実現

ホーム

Gliner Biomed Large V1.0

Ihorによって開発

GLiNER-BioMedはGLiNERフレームワークに基づく専門的な効率的なオープンバイオメディカルNERモデルスイートで、バイオメディカルエンティティ認識タスクにおいて最先端のゼロショットおよび少数ショット性能を実現しています。

シーケンスラベリング

PyTorch

英語オープンソースライセンス:Apache-2.0 #バイオメディカルNER #ゼロショット認識 #複数エンティティタイプ

ダウンロード数 163

リリース時間 : 2/19/2025

モデル概要

GLiNERは、双方向Transformerエンコーダーを使用してあらゆるエンティティタイプを認識できる名前付きエンティティ認識（NER）モデルです。GLiNER-BioMedはバイオメディカル分野に特化しており、合成アノテーションデータを活用して高性能を実現しています。

モデル特徴

オープンエンティティ認識

事前定義されたエンティティに限定されず、ユーザー定義のあらゆるエンティティタイプを認識可能

バイオメディカル特化

バイオメディカル分野に最適化されており、バイオメディカルNERタスクで優れた性能を発揮

効率的な性能

大規模言語モデルと比較して、リソース制約のあるシナリオでより効率的かつコンパクト

ゼロショットおよび少数ショット学習

ゼロショットおよび少数ショット設定で優れた性能を発揮

モデル能力

バイオメディカルエンティティ認識

複数カテゴリーエンティティ認識

ゼロショット学習

少数ショット学習

使用事例

医療健康

臨床記録分析

臨床記録から疾患、薬剤、投与量などの情報を識別

様々な医療エンティティを正確に識別

医学文献処理

医学研究論文から主要なエンティティ情報を抽出

専門的な医学用語を効率的に識別

医薬品開発

薬剤情報抽出

文献から薬剤名、投与量、効果などの情報を抽出

医薬品開発データ分析を支援

🚀 GLiNER-BioMed

GLiNER-BioMedは、双方向トランスフォーマーエンコーダ（BERTライク）を使用して任意のエンティティタイプを識別できる固有表現認識（NER）モデルです。このモデルは、事前定義されたエンティティに限定される従来のNERモデルや、柔軟性はあるもののリソース制約のあるシナリオではコストが高く大規模な大規模言語モデル（LLM）に代わる実用的な選択肢を提供します。

🚀 クイックスタート

このモデルは論文GLiNER-biomed: A Suite of Efficient Models for Open Biomedical Named Entity Recognitionで発表されました。コードはhttps://github.com/ds4dh/GLiNER-biomedで入手できます。

✨ 主な機能

GLiNER：双方向トランスフォーマーエンコーダを使用して任意のエンティティタイプを識別できるNERモデル。
GLiNER-biomed：ジュネーブ大学のDS4DHと共同開発された、GLiNERフレームワークに基づく効率的なオープンな生物医学NERモデルのセット。大規模な生成型生物医学言語モデルから抽出された合成アノテーションを利用して、生物医学エンティティ認識タスクにおいて最先端のゼロショットおよびフューショット性能を達成します。

📦 インストール

公式のGLiNERライブラリをpipでインストールします：

pip install gliner -U

💻 使用例

基本的な使用法

GLiNERライブラリをインストールした後、GLiNER-biomedモデルを簡単にロードして固有表現認識を実行できます：

from gliner import GLiNER

model = GLiNER.from_pretrained("Ihor/gliner-biomed-large-v1.0")

text = """
The patient, a 45-year-old male, was diagnosed with type 2 diabetes mellitus and hypertension.
He was prescribed Metformin 500mg twice daily and Lisinopril 10mg once daily. 
A recent lab test showed elevated HbA1c levels at 8.2%.
"""

labels = ["Disease", "Drug", "Drug dosage", "Drug frequency", "Lab test", "Lab test value", "Demographic information"]

entities = model.predict_entities(text, labels, threshold=0.5)

for entity in entities:
    print(entity["text"], "=>", entity["label"])

高度な使用法

# 上記のコードでは、GLiNER-biomedモデルを使用してテキストから固有表現を認識します。
# モデルをロードし、テキストとラベルを指定してエンティティを予測します。
# 予測結果は、エンティティのテキストとラベルのペアとして出力されます。

予想される出力

45-year-old male => Demographic information
type 2 diabetes mellitus => Disease
hypertension => Disease
Metformin => Drug
500mg => Drug dosage
twice daily => Drug frequency
Lisinopril => Drug
10mg => Drug dosage
once daily => Drug frequency
HbA1c levels => Lab test
8.2% => Lab test value

📚 ドキュメント

ベンチマーク

私たちは、8つの複雑な実世界のデータセットでモデルを検証し、他のGLiNERモデルと比較しました。

モデル	F1スコア	マクロ平均F1	マクロ中央値F1	加重F1
大規模モデル
NuNER Zero	40.87	21.79	13.94	33.67
NuNER Zero span	40.26	22.51	14.27	32.52
GLiNER bio v0.1	42.34	27.10	24.44	38.32
GLiNER bio v0.2	38.66	25.36	17.02	32.42
GLiNER v1.0	47.77	29.60	21.13	40.78
GLiNER v2.0	37.38	21.42	15.44	33.11
GLiNER v2.1	48.04	29.75	28.20	43.43
GLiNER news v2.1	48.99	31.79	33.77	45.13
GLiNER v2.5	53.81	35.22	35.65	51.57
GLiNER-biomed	59.77	40.67	42.65	58.40
GLiNER-biomed-bi	54.90	35.78	31.66	50.46
ベースモデル
GLiNER v1.0	41.61	24.98	10.27	31.59
GLiNER v2.0	34.33	24.48	22.01	30.58
GLiNER v2.1	40.25	25.26	14.41	32.64
GLiNER news v2.1	41.59	27.16	17.74	34.44
GLiNER v2.5	46.49	30.93	25.26	44.68
GLiNER-biomed	54.37	36.20	41.61	53.05
GLiNER-biomed-bi	58.31	35.22	32.39	54.91
小規模モデル
GLiNER v1.0	40.99	22.81	7.86	31.15
GLiNER v2.0	33.55	21.12	15.76	28.78
GLiNER v2.1	38.45	23.25	10.92	30.67
GLiNER news v2.1	39.15	24.96	14.48	33.10
GLiNER v2.5	38.21	28.53	18.01	36.88
GLiNER-biomed	52.53	34.49	38.17	50.87
GLiNER-biomed-bi	56.93	33.88	33.61	53.12

Discordへの参加

モデルに関するニュース、サポート、ディスカッションのために、Discordで私たちのコミュニティに参加してください。Discordに参加しましょう。

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下でライセンスされています。

引用

この研究

もしあなたの研究でGLiNER-biomedモデルを使用した場合は、以下を引用してください：

@misc{yazdani2025glinerbiomedsuiteefficientmodels,
      title={GLiNER-biomed: A Suite of Efficient Models for Open Biomedical Named Entity Recognition},
      author={Anthony Yazdani and Ihor Stepanov and Douglas Teodoro},
      year={2025},
      eprint={2504.00676},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2504.00676},
}

過去の研究

@misc{zaratiana2023gliner,
      title={GLiNER: Generalist Model for Named Entity Recognition using Bidirectional Transformer},
      author={Urchade Zaratiana and Nadi Tomeh and Pierre Holat and Thierry Charnois},
      year={2023},
      eprint={2311.08526},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@misc{stepanov2024gliner,
      title={GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks},
      author={Ihor Stepanov and Mykhailo Shtopko},
      year={2024},
      eprint={2406.12925},
      archivePrefix={arXiv},
      primaryClass={id='cs.LG' full_name='Machine Learning' is_active=True alt_name=None in_archive='cs' is_general=False description='Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.'}
}