bi-encoder-russian-msmarco開源模型 - 用於俄語非對稱語義搜索的免費工具

首頁

Bi Encoder Russian Msmarco

由DiTy開發

基於DeepPavlov/rubert-base-cased預訓練模型，使用MS-MARCO俄語段落排序數據集微調的sentence-transformers模型，用於俄語的非對稱語義搜索。

文本嵌入

Transformers

其他開源協議:MIT #俄語語義搜索 #高精度檢索 #醫學文本分析

下載量 74.33k

發布時間 : 4/16/2024

模型概述

該模型將句子和段落映射到768維稠密向量空間，主要用於俄語的非對稱語義搜索任務，能夠高效計算句子相似度。

模型特點

高效語義搜索

能夠快速計算俄語句子間的語義相似度，適用於大規模文檔檢索場景。

非對稱搜索能力

支持查詢句子與長段落之間的相似度比較，適用於問答系統等應用。

高精度檢索

在mMARCO俄語測試集上達到0.9997的召回率@5，表現優異。

模型能力

俄語文本特徵提取

句子相似度計算

語義搜索

文檔檢索

使用案例

信息檢索

醫療問答系統

將用戶醫療問題與知識庫中的專業解答進行匹配

準確找到相關醫學解釋

法律文檔檢索

根據簡短查詢檢索相關法律條款

快速定位相關法律條文

內容推薦

新聞文章推薦

根據用戶閱讀歷史推薦相似新聞

提升用戶閱讀體驗

🚀 DiTy/bi-encoder-russian-msmarco

DiTy/bi-encoder-russian-msmarco 是基於 DeepPavlov/rubert-base-cased 預訓練模型，並使用 MS-MARCO Russian passage ranking dataset 進行微調的 sentence-transformers 模型。它能將句子和段落映射到 768 維的密集向量空間，可用於俄語的非對稱語義搜索。

🚀 快速開始

本模型可通過 sentence-transformers 庫或 HuggingFace Transformers 庫使用，下面分別介紹兩種使用方式。

📦 安裝指南

若使用 sentence-transformers 庫，可通過以下命令安裝：

pip install -U sentence-transformers

💻 使用示例

[基礎用法 - sentence-transformers 庫]

from sentence_transformers import SentenceTransformer, util

sentences = [
    'какое состояние может определить тест с физической нагрузкой', 
    'Тест с физической нагрузкой разработан, чтобы выяснить, содержат ли одна или несколько коронарных артерий, питающих сердце, жировые отложения (бляшки), которые блокируют кровеносный сосуд на 70% или более. Для подтверждения результата часто требуется дополнительное тестирование. Результат испытаний.',
    'Тест направлен на то, чтобы выяснить, не получает ли какой-либо участок сердечной мышцы достаточный кровоток во время тренировки. Он похож на тест с физической нагрузкой, фармакологический или химический стресс-тест. Он также известен при стресс-тесте таллием, сканировании перфузии миокарда или радионуклидном тесте.'
]

model = SentenceTransformer('DiTy/bi-encoder-russian-msmarco')
embeddings = model.encode(sentences)
results = util.semantic_search(embeddings[0], embeddings[1:])[0]

print(f"Sentence similarity: {results}")
# `Sentence similarity: [{'corpus_id': 0, 'score': 0.8545001149177551}, {'corpus_id': 1, 'score': 0.023047829046845436}]`

[基礎用法 - HuggingFace Transformers 庫]

若不使用 sentence-transformers 庫，可按如下方式使用模型：首先將輸入傳遞給 Transformer 模型，然後對上下文詞嵌入應用正確的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = [
  'красный плоский лишай вызван стрессом',
  'В большинстве случаев причину появления красного плоского лишая невозможно. Это не вызвано стрессом, но иногда эмоциональный стресс усугубляет ситуацию. Известно, что это заболевание возникает после контакта с определенными химическими веществами, такими как те, которые используются для проявления цветных фотографий. У некоторых людей определенные лекарства вызывают красный плоский лишай. Эти препараты включают лекарства от высокого кровяного давления, болезней сердца, диабета, артрита и малярии, антибиотики, нестероидные противовоспалительные обезболивающие и т. Д.',
  'К сожалению для работодателей, в разных штатах страны есть несколько дел, по которым суды установили, что стресс, вызванный работой, может быть основанием для увольнения с работы, если стресс достигает уровня серьезного состояния здоровья, которое вызывает они не могут выполнять свою работу.',
]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('DiTy/bi-encoder-russian-msmarco')
model = AutoModel.from_pretrained('DiTy/bi-encoder-russian-msmarco')

# Tokenize sentences
encoded_input = tokenizer(sentences, max_length=512, padding='max_length', truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

🔧 技術細節

訓練參數

本模型的訓練參數如下：

DataLoader

使用 torch.utils.data.dataloader.DataLoader，長度為 1989041，參數如下：

{'batch_size': 16, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

Loss

使用 sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss，參數如下：

{'scale': 20.0, 'similarity_fct': 'cos_sim'}

fit() 方法參數

{
    "epochs": 5,
    "evaluation_steps": 250000,
    "evaluator": "sentence_transformers.evaluation.InformationRetrievalEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 10000,
    "weight_decay": 0.01
}

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)