🚀 英語とロシア語用のモデル
このモデルは、英語とロシア語の文章のランキングに特化したモデルです。元のモデルから英語とロシア語のトークンのみを残したため、サイズが1.5倍小さくなり、同じ埋め込みを生成します。
🚀 クイックスタート
このモデルは、BAAI/bge-reranker-v2-m3 のトランケートバージョンです。語彙には英語とロシア語のトークンのみが残されています。これにより、元のモデルよりも1.5倍小さくなり、同じ埋め込みを生成します。
モデルのトランケートは このノートブック で行われました。
✨ 主な機能
- 英語とロシア語の文章のランキングに特化
- 元のモデルよりも1.5倍小さいサイズで同じ埋め込みを生成
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
以下のコードは、文章のスコアを生成する例です。
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('qilowoq/bge-reranker-v2-m3-en-ru')
model = AutoModelForSequenceClassification.from_pretrained('qilowoq/bge-reranker-v2-m3-en-ru')
model.eval()
pairs = [('How many people live in Berlin?', 'Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.'),
('Какая площадь Берлина?', 'Площадь Берлина составляет 891,8 квадратных километров.')]
with torch.no_grad():
inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt')
scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
print(scores)
📚 ドキュメント
FAQ
文章のスコアを生成する方法
上記のコード例を参照してください。
📄 ライセンス
このモデルは MIT ライセンスの下で公開されています。
📚 引用
このリポジトリが役に立った場合は、スターを付けて引用していただけると幸いです。
@misc{li2023making,
title={Making Large Language Models A Better Foundation For Dense Retrieval},
author={Chaofan Li and Zheng Liu and Shitao Xiao and Yingxia Shao},
year={2023},
eprint={2312.15503},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@misc{chen2024bge,
title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation},
author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
year={2024},
eprint={2402.03216},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📋 モデル情報
属性 |
詳細 |
モデルタイプ |
text-ranking |
ベースモデル |
BAAI/bge-reranker-v2-m3 |
言語 |
en, ru |
ライセンス |
mit |
ライブラリ名 |
sentence-transformers |
タグ |
transformers, sentence-transformers, text-embeddings-inference |