BioLORD-2023-Cオープンソースモデル - 生物医学および臨床テキストの有価値な表現を無料で生成

ホーム

Biolord 2023 C

FremyCompanyによって開発

BioLORD-2023-CはBioLORDに基づいて訓練された文変換モデルで、生物医学および臨床テキストの有意義な表現生成に特化しています。

テキスト埋め込み英語オープンソースライセンス:その他 #生物医学的意味的類似性 #臨床概念の埋め込み #オントロジー知識の強化

ダウンロード数 188.08k

リリース時間 : 2/12/2024

モデル概要

このモデルは、定義と生物医学オントロジー知識グラフから抽出した短い説明を使用して概念表現を固定し、オントロジー階層に沿った意味的概念表現を生成します。臨床文と生物医学概念のテキスト類似性タスクに適しています。

モデル特徴

意味的概念表現

定義と知識グラフの説明を使用して概念表現を固定し、オントロジー階層に沿った意味的表現を生成します。

多段階訓練

対照学習段階と自己蒸留段階を含む3段階の訓練戦略を採用し、モデル性能を最適化します。

生物医学最適化

生物医学および臨床分野に特化して最適化されており、電子健康記録や臨床ノートなどの医学文書の処理に効果的です。

モデル能力

文の類似性計算

生物医学テキストの特徴抽出

臨床テキストの埋め込み生成

使用事例

医療情報処理

臨床ノート分析

電子健康記録内の臨床ノートを分析し、キー情報を抽出します。

後続の分析と処理に適した有意義なテキスト表現を生成します。

生物医学概念マッチング

'猫ひっかき病'や'バルトネラ症'など、異なる表現の生物医学概念をマッチングします。

意味的に類似した概念を正確に識別します。

🚀 FremyCompany/BioLORD-2023-C

BioLORD-2023-Cは、臨床文や生物医学概念に対して意味のある表現を生成する新しい事前学習戦略であるBioLORDを用いて学習されたモデルです。このモデルは、臨床文書や生物医学概念のテキスト類似度に関して新たな最先端技術を確立しています。

🚀 クイックスタート

BioLORD-2023-Cは、臨床文や生物医学概念に対して、より意味のある表現を生成することができます。このモデルは、sentence-transformers/all-mpnet-base-v2をベースに、BioLORD-DatasetとAutomatic Glossary of Clinical Terminology (AGCT)から生成された定義を用いてさらに微調整されています。

✨ 主な機能

意味のある表現の生成：BioLORDは、定義や生物医学オントロジーから構成される多関係知識グラフから導出された短い説明を用いて、概念表現を基盤とすることで、非意味的な表現の問題を克服し、オントロジーの階層構造により密接に一致するより意味的な概念表現を生成します。
最先端のテキスト類似度：BioLORD-2023は、臨床文（MedSTS）と生物医学概念（EHR-Rel-B）の両方において、テキスト類似度に関して新たな最先端技術を確立しています。
多言語対応：BioLORD-2023シリーズには、多言語モデルであるBioLORD-2023-Mも含まれています。

📦 インストール

sentence-transformersをインストールすることで、このモデルを簡単に使用することができます。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = ["Cat scratch injury", "Cat scratch disease", "Bartonellosis"]

model = SentenceTransformer('FremyCompany/BioLORD-2023-C')
embeddings = model.encode(sentences)
print(embeddings)

高度な使用法

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# Sentences we want sentence embeddings for
sentences = ["Cat scratch injury", "Cat scratch disease", "Bartonellosis"]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('FremyCompany/BioLORD-2023-C')
model = AutoModel.from_pretrained('FremyCompany/BioLORD-2023-C')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)
# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)
print("Sentence embeddings:")
print(sentence_embeddings)

📚 ドキュメント

兄弟モデル

このモデルには、BioLORD-2023シリーズの他のモデルも付属しています。

BioLORD-2023-M（多言語モデル；BioLORD-2023から蒸留）
BioLORD-2023（モデル平均後の最良モデル）
BioLORD-2023-S（最良のハイパーパラメータ；モデル平均なし）
BioLORD-2023-C（対照学習のみ；NELタスク用；このモデル）

また、昨年のモデルと論文も参照できます。

BioLORD-2022（BioLORD-STAMB2-v1とも呼ばれる）

学習戦略

3フェーズの概要

image/png

対照学習フェーズの詳細

image/png

自己蒸留フェーズの詳細

image/png

引用

このモデルは、BioLORD-2023: Learning Ontological Representations from Definitionsという論文に付随しています。このモデルを使用する際には、以下のように元の論文を引用してください。

@article{remy-etal-2023-biolord,
    author = {Remy, François and Demuynck, Kris and Demeester, Thomas},
    title = "{BioLORD-2023: semantic textual representations fusing large language models and clinical knowledge graph insights}",
    journal = {Journal of the American Medical Informatics Association},
    pages = {ocae029},
    year = {2024},
    month = {02},
    issn = {1527-974X},
    doi = {10.1093/jamia/ocae029},
    url = {https://doi.org/10.1093/jamia/ocae029},
    eprint = {https://academic.oup.com/jamia/advance-article-pdf/doi/10.1093/jamia/ocae029/56772025/ocae029.pdf},
}

🔧 技術詳細

このモデルは、sentence-transformers/all-mpnet-base-v2をベースに構築されており、文や段落を768次元の密ベクトル空間にマッピングすることができます。このモデルは、生物医学ドメイン用に微調整されており、一般的なテキストの埋め込みを生成する能力も維持しつつ、EHRレコードや臨床ノートなどの医療文書を処理する際により有用です。

📄 ライセンス

このモデルに対する私自身の貢献は、MITライセンスの対象となります。ただし、このモデルの学習に使用されたデータはUMLSとSnomedCTに由来するため、このモデルを使用する前に、UMLSとSnomedCTの適切なライセンスを取得していることを確認する必要があります。UMLSとSnomedCTはほとんどの国で無料ですが、有効なライセンスを維持するために、アカウントを作成し、データの使用状況を毎年報告する必要がある場合があります。