ViRanker開源越南語文本重排模型 - 免費部署直接輸出查詢與文檔相關性分數

首頁

Viranker

由namdp-ptit開發

ViRanker是一個用於越南語文本重排序的交叉編碼器模型，能夠直接輸出查詢與文檔之間的相關性分數。

文本嵌入

Transformers

其他開源協議:Apache-2.0 #越南語重排序 #跨編碼器模型 #高相關性評分

下載量 692

發布時間 : 8/14/2024

模型概述

該模型通過輸入查詢和段落，直接輸出相關性分數而非嵌入向量，分數可通過sigmoid函數映射到[0,1]區間。適用於越南語文本排序任務。

模型特點

直接相關性評分

直接輸出查詢與文檔之間的相關性分數，無需生成嵌入向量。

高精度

在MS MMarco Passage Reranking數據集上表現出色，NDCG@3達到0.6815。

支持FP16加速

支持FP16計算，可在輕微性能損失下顯著提升計算速度。

模型能力

文本相關性評分

越南語文本處理

查詢-文檔匹配

使用案例

信息檢索

搜索引擎結果排序

對搜索引擎返回的結果進行重新排序，提高最相關結果的排名。

可顯著提升前幾位結果的準確性

問答系統

答案相關性評估

評估候選答案與問題的相關性，選擇最合適的回答。

提高問答系統的準確率

🚀 重排器（Reranker）

重排器（Reranker）與嵌入模型不同，它以問題和文檔作為輸入，直接輸出相似度而非嵌入向量。通過向重排器輸入查詢和段落，你可以得到一個相關性得分，該得分可通過Sigmoid函數映射為[0, 1]範圍內的浮點值。

🚀 快速開始

✨ 主要特性

以查詢和文檔為輸入，直接輸出相似度得分。
得分可通過Sigmoid函數映射到[0, 1]範圍。

📦 安裝指南

使用FlagEmbedding

pip install -U FlagEmbedding

使用Huggingface transformers

pip install -U transformers

💻 使用示例

基礎用法

使用FlagEmbedding

from FlagEmbedding import FlagReranker

reranker = FlagReranker('namdp-ptit/ViRanker',
                        use_fp16=True)  # Setting use_fp16 to True speeds up computation with a slight performance degradation

score = reranker.compute_score(['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối cùng của nước ta'])
print(score)  # 13.71875

# You can map the scores into 0-1 by set "normalize=True", which will apply sigmoid function to the score
score = reranker.compute_score(['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối cùng của nước ta'],
                               normalize=True)
print(score)  # 0.99999889840464

scores = reranker.compute_score(
    [
        ['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối cùng của nước ta'],
        ['ai là vị vua cuối cùng của việt nam', 'lý nam đế là vị vua đầu tiên của nước ta']
    ]
)
print(scores)  # [13.7265625, -8.53125]

# You can map the scores into 0-1 by set "normalize=True", which will apply sigmoid function to the score
scores = reranker.compute_score(
    [
        ['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối của nước ta'],
        ['ai là vị vua cuối cùng của việt nam', 'lý nam đế là vị vua đầu tiên của nước ta']
    ],
    normalize=True
)
print(scores)  # [0.99999889840464, 0.00019716942196222918]

使用Huggingface transformers

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('namdp-ptit/ViRanker')
model = AutoModelForSequenceClassification.from_pretrained('namdp-ptit/ViRanker')
model.eval()

pairs = [
    ['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối cùng của nước ta'],
    ['ai là vị vua cuối cùng của việt nam', 'lý nam đế là vị vua đầu tiên của nước ta']
],
with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)

📚 詳細文檔

微調（Fine-tune）

數據格式

訓練數據應為JSON文件，每行是一個如下格式的字典：

{"query": str, "pos": List[str], "neg": List[str]}

query 是查詢內容，pos 是正文本列表，neg 是負文本列表。如果某個查詢沒有負文本，可以從整個語料庫中隨機採樣一些作為負樣本。此外，對於訓練數據中的每個查詢，我們使用大語言模型（LLMs）為其生成難負樣本，方法是讓LLMs創建與 pos 中文檔相反的文檔。

🔧 技術細節

性能表現

以下是我們的模型與其他一些預訓練交叉編碼器在MS MMarco Passage Reranking - Vi - Dev數據集上的對比結果：

模型名稱	NDCG@3	MRR@3	NDCG@5	MRR@5	NDCG@10	MRR@10
namdp-ptit/ViRanker	0.6815	0.6641	0.6983	0.6894	0.7302	0.7107
itdainb/PhoRanker	0.6625	0.6458	0.7147	0.6731	0.7422	0.6830
kien-vu-uet/finetuned-phobert-passage-rerank-best-eval	0.0963	0.0883	0.1396	0.1131	0.1681	0.1246
BAAI/bge-reranker-v2-m3	0.6087	0.5841	0.6513	0.6062	0.6872	0.6209
BAAI/bge-reranker-v2-gemma	0.6088	0.5908	0.6446	0.6108	0.6785	0.6249

📄 許可證

本項目採用Apache-2.0許可證。

聯繫方式

郵箱：phuongnamdpn2k2@gmail.com
領英：Dang Phuong Nam
臉書：Phương Nam

支持項目

如果您認為本項目有幫助並希望支持其持續開發，可以通過以下方式做出貢獻：

為倉庫加星：通過為倉庫加星來表達您的認可，您的支持將激勵我們進行更多的開發和改進。
貢獻代碼：我們歡迎您的貢獻！您可以通過報告錯誤、提交拉取請求或提出新功能建議來提供幫助。
捐贈：如果您希望提供資金支持，可以考慮進行捐贈。您可以通過以下方式捐贈：
- 越南商業銀行（Vietcombank）：9912692172 - DANG PHUONG NAM

感謝您的支持！

引用

請按以下格式引用：

@misc{ViRanker,
  title={ViRanker: A Cross-encoder Model for Vietnamese Text Ranking},
  author={Nam Dang Phuong},
  year={2024},
  publisher={Huggingface},
}