ViRankerオープンソースベトナム語テキストの再並べ替えモデル - 無料でデプロイして直接クエリと文書の関連性スコアを出力

ホーム

Viranker

namdp-ptitによって開発

ViRankerはベトナム語テキストのリランキング用クロスエンコーダーモデルで、クエリとドキュメント間の関連性スコアを直接出力できます。

テキスト埋め込み

Transformers

その他オープンソースライセンス:Apache-2.0 #ベトナム語リランキング #クロスエンコーダーモデル #高関連性スコアリング

ダウンロード数 692

リリース時間 : 8/14/2024

モデル概要

このモデルはクエリと段落を入力として、埋め込みベクトルではなく関連性スコアを直接出力し、そのスコアはシグモイド関数で[0,1]範囲にマッピング可能です。ベトナム語テキストのランキングタスクに適しています。

モデル特徴

直接関連性スコアリング

埋め込みベクトルを生成せずに、クエリとドキュメント間の関連性スコアを直接出力します。

高精度

MS MMarco Passage Rerankingデータセットで優れた性能を発揮し、NDCG@3は0.6815を達成しました。

FP16高速化対応

FP16計算をサポートし、わずかな性能低下で計算速度を大幅に向上させます。

モデル能力

テキスト関連性スコアリング

ベトナム語テキスト処理

クエリ-ドキュメントマッチング

使用事例

情報検索

検索エンジン結果のランキング

検索エンジンが返す結果を再ランキングし、最も関連性の高い結果の順位を向上させます。

上位結果の精度を大幅に向上させることが可能

質問応答システム

回答関連性評価

候補回答と質問の関連性を評価し、最も適切な回答を選択します。

質問応答システムの精度向上

🚀 リランカー

埋め込みモデルとは異なり、リランカーは質問と文書を入力として使用し、埋め込みではなく直接類似度を出力します。
リランカーにクエリとパッセージを入力することで、関連性スコアを取得できます。
このスコアはシグモイド関数によって[0,1]の浮動小数点数値にマッピングできます。

🚀 クイックスタート

使用方法
- FlagEmbeddingを使用する場合
- Huggingface transformersを使用する場合
微調整
- データ形式
パフォーマンス
お問い合わせ
プロジェクトのサポート
引用

✨ 主な機能

このリランカーは、クエリと文書を入力として受け取り、直接関連性スコアを出力することができます。これにより、ベトナム語のテキストランキングに特化した高精度な結果を得ることができます。

📦 インストール

FlagEmbeddingを使用する場合

pip install -U FlagEmbedding

Huggingface transformersを使用する場合

pip install -U transformers

💻 使用例

基本的な使用法

FlagEmbeddingを使用する場合

from FlagEmbedding import FlagReranker

reranker = FlagReranker('namdp-ptit/ViRanker',
                        use_fp16=True)  # Setting use_fp16 to True speeds up computation with a slight performance degradation

score = reranker.compute_score(['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối cùng của nước ta'])
print(score)  # 13.71875

# You can map the scores into 0-1 by set "normalize=True", which will apply sigmoid function to the score
score = reranker.compute_score(['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối cùng của nước ta'],
                               normalize=True)
print(score)  # 0.99999889840464

scores = reranker.compute_score(
    [
        ['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối cùng của nước ta'],
        ['ai là vị vua cuối cùng của việt nam', 'lý nam đế là vị vua đầu tiên của nước ta']
    ]
)
print(scores)  # [13.7265625, -8.53125]

# You can map the scores into 0-1 by set "normalize=True", which will apply sigmoid function to the score
scores = reranker.compute_score(
    [
        ['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối của nước ta'],
        ['ai là vị vua cuối cùng của việt nam', 'lý nam đế là vị vua đầu tiên của nước ta']
    ],
    normalize=True
)
print(scores)  # [0.99999889840464, 0.00019716942196222918]

Huggingface transformersを使用する場合

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('namdp-ptit/ViRanker')
model = AutoModelForSequenceClassification.from_pretrained('namdp-ptit/ViRanker')
model.eval()

pairs = [
    ['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối cùng của nước ta'],
    ['ai là vị vua cuối cùng của việt nam', 'lý nam đế là vị vua đầu tiên của nước ta']
],
with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)

📚 ドキュメント

微調整

データ形式

学習データはJSONファイルであり、各行は次のような辞書です。

{"query": str, "pos": List[str], "neg": List[str]}

query はクエリで、pos は正のテキストのリスト、neg は負のテキストのリストです。クエリに負のテキストがない場合は、コーパス全体からランダムにサンプリングして負のテキストとして使用できます。

また、学習データ内の各クエリについて、LLMに'pos'内の文書の反対の文書を作成するように依頼することで、難しい負の例を生成しました。

パフォーマンス

以下は、MS MMarco Passage Reranking - Vi - Dev データセットで他のいくつかの事前学習済みクロスエンコーダと比較した結果の比較表です。

モデル名	NDCG@3	MRR@3	NDCG@5	MRR@5	NDCG@10	MRR@10
namdp-ptit/ViRanker	0.6815	0.6641	0.6983	0.6894	0.7302	0.7107
itdainb/PhoRanker	0.6625	0.6458	0.7147	0.6731	0.7422	0.6830
kien-vu-uet/finetuned-phobert-passage-rerank-best-eval	0.0963	0.0883	0.1396	0.1131	0.1681	0.1246
BAAI/bge-reranker-v2-m3	0.6087	0.5841	0.6513	0.6062	0.6872	0.6209
BAAI/bge-reranker-v2-gemma	0.6088	0.5908	0.6446	0.6108	0.6785	0.6249

お問い合わせ

Email: phuongnamdpn2k2@gmail.com LinkedIn: Dang Phuong Nam Facebook: Phương Nam

プロジェクトのサポート

このプロジェクトが役に立ったと感じ、その継続的な開発をサポートしたい場合は、以下の方法で貢献できます。

リポジトリにスターを付ける：リポジトリにスターを付けることで、あなたの感謝の意を示しましょう。あなたのサポートは、さらなる開発と改善につながります。
貢献する：あなたの貢献を歓迎します！バグの報告、プルリクエストの提出、新機能の提案などでお手伝いいただけます。
寄付する：財政的にサポートしたい場合は、寄付を検討してください。以下の方法で寄付できます。
- ヴェトコム銀行: 9912692172 - DANG PHUONG NAM

ご支援いただき、ありがとうございます！

引用

次のように引用してください。

@misc{ViRanker,
  title={ViRanker: A Cross-encoder Model for Vietnamese Text Ranking},
  author={Nam Dang Phuong},
  year={2024},
  publisher={Huggingface},
}