bge-reranker-v2-m3-en-ru オープンソースモデル - 軽量版は英語とロシア語をサポートし、小型で効率的に埋め込みベクトルを生成します。

ホーム

Bge Reranker V2 M3 En Ru

qilowoqによって開発

これはBAAI/bge-reranker-v2-m3の簡素化バージョンで、英語とロシア語の語彙表のみを保持しており、元のモデルより1.5倍小さく、同じ埋め込みベクトルを生成できます。

テキスト埋め込み

Transformers

複数言語対応オープンソースライセンス:MIT #多言語テキストソート #簡素化された語彙表 #英語・ロシア語のバイリンガルサポート

ダウンロード数 677

リリース時間 : 9/5/2024

モデル概要

このモデルは主にテキストソートタスクに使用され、英語とロシア語のテキストの埋め込みベクトル生成をサポートします。

モデル特徴

簡素化された語彙表

英語とロシア語の語彙表のみを保持し、モデルサイズを元のバージョンより1.5倍小さくしました

性能維持

サイズが縮小されても、元のモデルと同じ埋め込みベクトルを生成できます

多言語サポート

英語とロシア語の2言語のテキスト処理に特化して最適化されています

モデル能力

テキスト埋め込み生成

テキスト類似度計算

クロスランゲージテキスト処理

使用事例

情報検索

質問応答システム

質問と候補回答の関連性を評価するために使用

質問応答システムの精度と関連性を向上

ドキュメントソート

検索結果やドキュメントコレクションを関連性でソート

検索結果の品質とユーザー体験を向上

🚀 英語とロシア語用のモデル

このモデルは、英語とロシア語の文章のランキングに特化したモデルです。元のモデルから英語とロシア語のトークンのみを残したため、サイズが1.5倍小さくなり、同じ埋め込みを生成します。

🚀 クイックスタート

このモデルは、BAAI/bge-reranker-v2-m3 のトランケートバージョンです。語彙には英語とロシア語のトークンのみが残されています。これにより、元のモデルよりも1.5倍小さくなり、同じ埋め込みを生成します。

モデルのトランケートはこのノートブックで行われました。

✨ 主な機能

英語とロシア語の文章のランキングに特化
元のモデルよりも1.5倍小さいサイズで同じ埋め込みを生成

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

以下のコードは、文章のスコアを生成する例です。

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('qilowoq/bge-reranker-v2-m3-en-ru')
model = AutoModelForSequenceClassification.from_pretrained('qilowoq/bge-reranker-v2-m3-en-ru')
model.eval()

pairs = [('How many people live in Berlin?', 'Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.'),
         ('Какая площадь Берлина?', 'Площадь Берлина составляет 891,8 квадратных километров.')]
with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt')
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)

📚 ドキュメント

FAQ

文章のスコアを生成する方法

上記のコード例を参照してください。

📄 ライセンス

このモデルは MIT ライセンスの下で公開されています。

📚 引用

このリポジトリが役に立った場合は、スターを付けて引用していただけると幸いです。

@misc{li2023making,
      title={Making Large Language Models A Better Foundation For Dense Retrieval}, 
      author={Chaofan Li and Zheng Liu and Shitao Xiao and Yingxia Shao},
      year={2023},
      eprint={2312.15503},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@misc{chen2024bge,
      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation}, 
      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
      year={2024},
      eprint={2402.03216},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

📋 モデル情報

属性	詳細
モデルタイプ	text-ranking
ベースモデル	BAAI/bge-reranker-v2-m3
言語	en, ru
ライセンス	mit
ライブラリ名	sentence-transformers
タグ	transformers, sentence-transformers, text-embeddings-inference