WikiMedical_sent_biobert_multiオープンソースモデル - 8言語に対応する多言語医療テキスト埋め込み

ホーム

Wikimedical Sent Biobert Multi

nuvocareによって開発

sentence - transformersに基づく多言語医学テキストの文埋め込みモデルで、8つの言語をサポートします。

テキスト埋め込み

Transformers

#多言語医学テキスト #文のベクトル化 #異言語間の意味検索

ダウンロード数 14

リリース時間 : 10/20/2023

モデル概要

このモデルは、医学関連の文や段落を768次元のベクトル空間にマッピングでき、異言語間のクラスタリングや意味検索タスクに適しています。WikiMedical_sent_biobertの多言語バージョンで、xlm - roberta - baseアーキテクチャに基づいて訓練されています。

モデル特徴

多言語サポート

英語、スペイン語、フランス語、ドイツ語など8つの言語の医学テキスト処理をサポートします。

医学分野の最適化

ウィキ医学の内容に特化して最適化された文埋め込みモデルです。

知識蒸留

教師 - 学生モデルアーキテクチャを採用し、単言語のBioBERTモデルから多言語モデルに知識を移行します。

モデル能力

文のベクトル化

異言語間の意味検索

テキストクラスタリング分析

医学テキストの類似度計算

使用事例

医療情報検索

多言語医学文献検索

異言語間の医学文献検索エンジンを構築します。

異なる言語の医学文献の意味類似度のマッチングを実現できます。

臨床決定支援

多言語症状マッチング

異なる言語で記述された症状と疾病の関連をマッチングします。

🚀 WikiMedical_sent_biobert_multi

このモデルはsentence-transformersをベースとしており、文章や段落を768次元の密ベクトル空間にマッピングします。クラスタリングや意味検索などのタスクに利用できます。

WikiMedical_sent_biobert_multiはnuvocare/WikiMedical_sent_biobert sentence-transformersの多言語版です。 nuvocare/Ted2020_en_es_fr_de_it_ca_pl_ru_nlデータセットを使って学習されています。

このモデルはnuvocare/WikiMedical_sent_biobertを教師モデルとし、'xlm-roberta-base'を学生モデルとして使用しています。学生モデルはsentence transformers documentationに従って、異なる言語間での埋め込みを再現するように学習されています。

🚀 クイックスタート

✨ 主な機能

文章や段落を768次元の密ベクトル空間にマッピングする。
クラスタリングや意味検索などのタスクに利用可能。
多言語対応。

📦 インストール

sentence-transformersをインストールすることで、このモデルを簡単に使用できます。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('WikiMedical_sent_biobert_multi')
embeddings = model.encode(sentences)
print(embeddings)

高度な使用法

sentence-transformersを使用せずに、モデルを使用することもできます。まず、入力をTransformerモデルに通し、その後、文脈化された単語埋め込みに対して適切なプーリング操作を適用する必要があります。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('WikiMedical_sent_biobert_multi')
model = AutoModel.from_pretrained('WikiMedical_sent_biobert_multi')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 ドキュメント

評価結果

このモデルは、2つの評価器MSEとtranslationを使用して、複数の言語で評価されています。

言語	MSE (x100)	翻訳 (ソースからターゲット)	翻訳 (ターゲットからソース)
de	10.39	0.70	0.69
es	9.9	0.75	0.74
fr	10.00	0.72	0.73
it	10.29	0.69	0.69
nl	10.34	0.70	0.70
pl	11.39	0.58	0.58
ru	11.18	0.59	0.59

このモデルの自動評価については、Sentence Embeddings Benchmarkを参照してください: https://seb.sbert.net

学習

このモデルは以下のパラメータで学習されています。

DataLoader: torch.utils.data.dataloader.DataLoader (長さ66833) で、以下のパラメータを使用しています。

{'batch_size': 16, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

損失関数: sentence_transformers.losses.MSELoss.MSELoss

fit()メソッドのパラメータ:

{
    "epochs": 1,
    "evaluation_steps": 0,
    "evaluator": "sentence_transformers.evaluation.SequentialEvaluator.SequentialEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 500,
    "weight_decay": 0.01
}

モデルのアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)