WikiMedical_sent_biobert_multi開源模型 - 支持8種語言的多語言醫學文本嵌入

首頁

Wikimedical Sent Biobert Multi

由nuvocare開發

基於sentence-transformers的多語言醫學文本句子嵌入模型，支持8種語言

文本嵌入

Transformers

#多語言醫學文本 #句子向量化 #跨語言語義搜索

下載量 14

發布時間 : 10/20/2023

模型概述

該模型能將醫學相關句子和段落映射到768維向量空間，適用於跨語言的聚類或語義搜索任務。是WikiMedical_sent_biobert的多語言版本，基於xlm-roberta-base架構訓練。

模型特點

多語言支持

支持英語、西班牙語、法語、德語等8種語言的醫學文本處理

醫學領域優化

專門針對維基醫學內容優化的句子嵌入模型

知識蒸餾

採用教師-學生模型架構，從單語言BioBERT模型遷移知識到多語言模型

模型能力

句子向量化

跨語言語義搜索

文本聚類分析

醫學文本相似度計算

使用案例

醫療信息檢索

多語言醫學文獻檢索

構建跨語言的醫學文獻搜索引擎

可實現對不同語言醫學文獻的語義相似度匹配

臨床決策支持

多語言症狀匹配

匹配不同語言描述的症狀與疾病關聯

🚀 WikiMedical_sent_biobert_multi

WikiMedical_sent_biobert_multi 是一個基於 sentence-transformers 的模型，它可以將句子和段落映射到 768 維的密集向量空間，可用於聚類或語義搜索等任務。該模型是 nuvocare/WikiMedical_sent_biobert 的多語言版本，在 nuvocare/Ted2020_en_es_fr_de_it_ca_pl_ru_nl 數據集上進行了訓練。

🚀 快速開始

本部分將介紹如何使用 WikiMedical_sent_biobert_multi 模型，包括使用 sentence-transformers 庫和 HuggingFace Transformers 庫的方法。

✨ 主要特性

多語言支持：能夠處理多種語言的句子和段落。
向量映射：將文本映射到 768 維的密集向量空間。
任務適用性：適用於聚類、語義搜索等任務。

📦 安裝指南

若要使用該模型，你需要安裝 sentence-transformers 庫，可使用以下命令進行安裝：

pip install -U sentence-transformers

💻 使用示例

基礎用法（Sentence-Transformers）

在安裝了 sentence-transformers 庫後，使用該模型變得非常簡單，示例代碼如下：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('WikiMedical_sent_biobert_multi')
embeddings = model.encode(sentences)
print(embeddings)

高級用法（HuggingFace Transformers）

若未安裝 sentence-transformers 庫，你可以按以下方式使用該模型：首先將輸入傳遞給 Transformer 模型，然後對上下文詞嵌入應用正確的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('WikiMedical_sent_biobert_multi')
model = AutoModel.from_pretrained('WikiMedical_sent_biobert_multi')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 詳細文檔

評估結果

該模型基於兩種評估器 MSE 和 translation 進行跨語言評估，評估結果如下表所示：

語言	MSE (x100)	翻譯（源到目標）	翻譯（目標到源）
de	10.39	0.70	0.69
es	9.9	0.75	0.74
fr	10.00	0.72	0.73
it	10.29	0.69	0.69
nl	10.34	0.70	0.70
pl	11.39	0.58	0.58
ru	11.18	0.59	0.59

若要對該模型進行自動評估，請參考 Sentence Embeddings Benchmark：https://seb.sbert.net

訓練詳情

該模型使用以下參數進行訓練：

數據加載器

torch.utils.data.dataloader.DataLoader，長度為 66833，參數如下：

{'batch_size': 16, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

損失函數

sentence_transformers.losses.MSELoss.MSELoss

fit() 方法的參數如下：

{
    "epochs": 1,
    "evaluation_steps": 0,
    "evaluator": "sentence_transformers.evaluation.SequentialEvaluator.SequentialEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 500,
    "weight_decay": 0.01
}

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)