cross-encoder-russian-msmarcoオープンソースモデル - 無料でデプロイしてロシア語の情報検索タスクを支援

Cross Encoder Russian Msmarco

DiTyによって開発

DeepPavlov/rubert-base-cased事前学習モデルを基に、MS-MARCOロシア語段落並べ替えデータセットでファインチューニングされたsentence-transformersモデルで、ロシア語情報検索タスクに使用されます。

テキスト埋め込み

Transformers

その他オープンソースライセンス:MIT #ロシア語情報検索 #段落再並べ替え #BERTファインチューニング

ダウンロード数 116.28k

リリース時間 : 4/19/2024

モデル概要

このモデルはロシア語のクロスエンコーダーで、情報検索タスク専用に設計されています。クエリとドキュメントを共同でエンコードし、関連性スコアを計算でき、検索結果の再並べ替えに適しています。

モデル特徴

ロシア語最適化

ロシア語事前学習モデルDeepPavlov/rubert-base-casedをファインチューニングし、ロシア語情報検索タスクに特化して最適化されています

クロスエンコーダーアーキテクチャ

クロスエンコーダーアーキテクチャを採用し、クエリとドキュメントを同時に処理してより正確な関連性スコアを計算できます

MS-MARCOファインチューニング

MS-MARCOロシア語段落並べ替えデータセットを使用してファインチューニングされ、検索並べ替え性能が最適化されています

モデル能力

ロシア語テキスト理解

クエリ-ドキュメント関連性スコアリング

検索結果再並べ替え

使用事例

情報検索

検索エンジン結果再並べ替え

初期検索結果を再並べ替えし、関連ドキュメントのランキングを向上させます

検索結果の関連性を効果的に向上させることができます

質問応答システム

候補回答から最も関連性の高い結果を選択します

🚀 DiTy/cross-encoder-russian-msmarco

このモデルは、事前学習済みのDeepPavlov/rubert-base-casedをベースに、MS-MARCO Russian passage ranking datasetで微調整されたsentence-transformersモデルです。このモデルは、ロシア語の情報検索に使用できます。クエリを与えると、すべての可能なパッセージ（例えばElasticSearchで検索されたもの）とともにクエリをエンコードし、パッセージを降順に並べます。詳細はSBERT.net Retrieve & Re-rankを参照してください。

🚀 クイックスタート

✨ 主な機能

このモデルは、ロシア語の情報検索に特化しており、クエリとパッセージの関連性を評価してパッセージをランキング付けすることができます。

📦 インストール

sentence-transformersをインストールすることで、このモデルを簡単に使用できます。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import CrossEncoder

reranker_model = CrossEncoder('DiTy/cross-encoder-russian-msmarco', max_length=512, device='cuda')

query = ["как часто нужно ходить к стоматологу?"]
documents = [
    "Минимальный обязательный срок посещения зубного врача – раз в год, но специалисты рекомендуют делать это чаще – раз в полгода, а ещё лучше – раз в квартал. При таком сроке легко отследить любые начинающиеся проблемы и исправить их сразу же.",
    "Основная причина заключается в истончении поверхностного слоя зуба — эмали, которая защищает зуб от механических, химических и температурных воздействий. Под эмалью расположен дентин, который более мягкий по своей структуре и пронизан множеством канальцев. При повреждении эмали происходит оголение дентинных канальцев. Раздражение с них начинает передаваться на нервные окончания в зубе и возникают болевые ощущения. Чаще всего дентин оголяется в придесневой области зубов, поскольку эмаль там наиболее тонкая и стирается быстрее.",
    "Стоматолог, также известный как стоматолог-хирург, является медицинским работником, который специализируется на стоматологии, отрасли медицины, специализирующейся на зубах, деснах и полости рта.",
    "Дядя Женя работает врачем стоматологом",
    "Плоды малины употребляют как свежими, так и замороженными или используют для приготовления варенья, желе, мармелада, соков, а также ягодного пюре. Малиновые вина, наливки, настойки, ликёры обладают высокими вкусовыми качествами.",
]

predict_result = reranker_model.predict([[query[0], documents[0]]])
print(predict_result)
# `array([0.88126713], dtype=float32)`

rank_result = reranker_model.rank(query[0], documents)
print(rank_result)
# `[{'corpus_id': 0, 'score': 0.88126713},
#  {'corpus_id': 2, 'score': 0.001042091},
#  {'corpus_id': 3, 'score': 0.0010417715},
#  {'corpus_id': 1, 'score': 0.0010344835},
#  {'corpus_id': 4, 'score': 0.0010244923}]`

高度な使用法

sentence-transformersを使用せずに、このモデルを使用することもできます。まず、入力をトランスフォーマーモデルに通し、次にモデルからロジットを取得する必要があります。

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained('DiTy/cross-encoder-russian-msmarco')
tokenizer = AutoTokenizer.from_pretrained('DiTy/cross-encoder-russian-msmarco')

features = tokenizer(["как часто нужно ходить к стоматологу?", "как часто нужно ходить к стоматологу?"], ["Минимальный обязательный срок посещения зубного врача – раз в год, но специалисты рекомендуют делать это чаще – раз в полгода, а ещё лучше – раз в квартал. При таком сроке легко отследить любые начинающиеся проблемы и исправить их сразу же.", "Дядя Женя работает врачем стоматологом"], padding=True, truncation=True, return_tensors='pt')
 
model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)
# `tensor([[ 1.6871],
#        [-6.8700]])`