cross-encoder-russian-msmarco開源模型 - 免費部署助力俄語信息檢索任務

首頁

Cross Encoder Russian Msmarco

由DiTy開發

基於DeepPavlov/rubert-base-cased預訓練模型並通過MS-MARCO俄語段落排序數據集微調的sentence-transformers模型，用於俄語信息檢索任務。

文本嵌入

Transformers

其他開源協議:MIT #俄語信息檢索 #段落重排序 #BERT微調

下載量 116.28k

發布時間 : 4/19/2024

模型概述

該模型是一個俄語交叉編碼器，專門用於信息檢索任務。它可以對查詢和文檔進行聯合編碼，計算相關性分數，適用於檢索結果的重排序。

模型特點

俄語優化

基於俄語預訓練模型DeepPavlov/rubert-base-cased微調，專門針對俄語信息檢索任務優化

交叉編碼架構

採用交叉編碼器架構，能夠同時處理查詢和文檔，計算更精確的相關性分數

MS-MARCO微調

使用MS-MARCO俄語段落排序數據集進行微調，優化了檢索排序性能

模型能力

俄語文本理解

查詢-文檔相關性評分

檢索結果重排序

使用案例

信息檢索

搜索引擎結果重排序

對初步檢索結果進行重新排序，提高相關文檔的排名

能夠有效提升檢索結果的相關性

問答系統

從候選答案中選擇最相關的結果

🚀 DiTy/cross-encoder-russian-msmarco

這是一個基於 sentence-transformers 的模型，它以預訓練的 DeepPavlov/rubert-base-cased 為基礎，並使用 MS-MARCO 俄語段落排序數據集進行了微調。該模型可用於俄語信息檢索：給定一個查詢，將查詢與所有可能的段落（例如通過 ElasticSearch 檢索到的段落）進行編碼，然後按降序對段落進行排序。更多詳細信息請參閱 SBERT.net 檢索與重排序。

🚀 快速開始

安裝依賴

若已安裝 sentence-transformers，使用該模型會變得很簡單：

pip install -U sentence-transformers

🔧 技術細節

屬性	詳情
模型類型	基於預訓練的 DeepPavlov/rubert-base-cased 微調的 sentence-transformers 模型
訓練數據	MS-MARCO 俄語段落排序數據集（unicamp-dl/mmarco）
基礎模型	DeepPavlov/rubert-base-cased
許可證	MIT

💻 使用示例

基礎用法（Sentence-Transformers）

from sentence_transformers import CrossEncoder

reranker_model = CrossEncoder('DiTy/cross-encoder-russian-msmarco', max_length=512, device='cuda')

query = ["как часто нужно ходить к стоматологу?"]
documents = [
    "Минимальный обязательный срок посещения зубного врача – раз в год, но специалисты рекомендуют делать это чаще – раз в полгода, а ещё лучше – раз в квартал. При таком сроке легко отследить любые начинающиеся проблемы и исправить их сразу же.",
    "Основная причина заключается в истончении поверхностного слоя зуба — эмали, которая защищает зуб от механических, химических и температурных воздействий. Под эмалью расположен дентин, который более мягкий по своей структуре и пронизан множеством канальцев. При повреждении эмали происходит оголение дентинных канальцев. Раздражение с них начинает передаваться на нервные окончания в зубе и возникают болевые ощущения. Чаще всего дентин оголяется в придесневой области зубов, поскольку эмаль там наиболее тонкая и стирается быстрее.",
    "Стоматолог, также известный как стоматолог-хирург, является медицинским работником, который специализируется на стоматологии, отрасли медицины, специализирующейся на зубах, деснах и полости рта.",
    "Дядя Женя работает врачем стоматологом",
    "Плоды малины употребляют как свежими, так и замороженными или используют для приготовления варенья, желе, мармелада, соков, а также ягодного пюре. Малиновые вина, наливки, настойки, ликёры обладают высокими вкусовыми качествами.",
]

predict_result = reranker_model.predict([[query[0], documents[0]]])
print(predict_result)
# `array([0.88126713], dtype=float32)`

rank_result = reranker_model.rank(query[0], documents)
print(rank_result)
# `[{'corpus_id': 0, 'score': 0.88126713},
#  {'corpus_id': 2, 'score': 0.001042091},
#  {'corpus_id': 3, 'score': 0.0010417715},
#  {'corpus_id': 1, 'score': 0.0010344835},
#  {'corpus_id': 4, 'score': 0.0010244923}]`

高級用法（HuggingFace Transformers）

若未安裝 sentence-transformers，可以按以下方式使用該模型：首先，將輸入數據傳入變壓器模型，然後從模型中獲取對數幾率。

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained('DiTy/cross-encoder-russian-msmarco')
tokenizer = AutoTokenizer.from_pretrained('DiTy/cross-encoder-russian-msmarco')

features = tokenizer(["как часто нужно ходить к стоматологу?", "как часто нужно ходить к стоматологу?"], ["Минимальный обязательный срок посещения зубного врача – раз в год, но специалисты рекомендуют делать это чаще – раз в полгода, а ещё лучше – раз в квартал. При таком сроке легко отследить любые начинающиеся проблемы и исправить их сразу же.", "Дядя Женя работает врачем стоматологом"], padding=True, truncation=True, return_tensors='pt')
 
model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)
# `tensor([[ 1.6871],
#        [-6.8700]])`