ViRanker开源越南语文本重排模型 - 免费部署直接输出查询与文档相关性分数

首页

Viranker

由 namdp-ptit 开发

ViRanker是一个用于越南语文本重排序的交叉编码器模型，能够直接输出查询与文档之间的相关性分数。

文本嵌入

Transformers

其他开源协议:Apache-2.0 #越南语重排序 #跨编码器模型 #高相关性评分

下载量 692

发布时间 : 8/14/2024

模型简介

该模型通过输入查询和段落，直接输出相关性分数而非嵌入向量，分数可通过sigmoid函数映射到[0,1]区间。适用于越南语文本排序任务。

模型特点

直接相关性评分

直接输出查询与文档之间的相关性分数，无需生成嵌入向量。

高精度

在MS MMarco Passage Reranking数据集上表现出色，NDCG@3达到0.6815。

支持FP16加速

支持FP16计算，可在轻微性能损失下显著提升计算速度。

模型能力

文本相关性评分

越南语文本处理

查询-文档匹配

使用案例

信息检索

搜索引擎结果排序

对搜索引擎返回的结果进行重新排序，提高最相关结果的排名。

可显著提升前几位结果的准确性

问答系统

答案相关性评估

评估候选答案与问题的相关性，选择最合适的回答。

提高问答系统的准确率

🚀 重排器（Reranker）

重排器（Reranker）与嵌入模型不同，它以问题和文档作为输入，直接输出相似度而非嵌入向量。通过向重排器输入查询和段落，你可以得到一个相关性得分，该得分可通过Sigmoid函数映射为[0, 1]范围内的浮点值。

🚀 快速开始

✨ 主要特性

以查询和文档为输入，直接输出相似度得分。
得分可通过Sigmoid函数映射到[0, 1]范围。

📦 安装指南

使用FlagEmbedding

pip install -U FlagEmbedding

使用Huggingface transformers

pip install -U transformers

💻 使用示例

基础用法

使用FlagEmbedding

from FlagEmbedding import FlagReranker

reranker = FlagReranker('namdp-ptit/ViRanker',
                        use_fp16=True)  # Setting use_fp16 to True speeds up computation with a slight performance degradation

score = reranker.compute_score(['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối cùng của nước ta'])
print(score)  # 13.71875

# You can map the scores into 0-1 by set "normalize=True", which will apply sigmoid function to the score
score = reranker.compute_score(['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối cùng của nước ta'],
                               normalize=True)
print(score)  # 0.99999889840464

scores = reranker.compute_score(
    [
        ['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối cùng của nước ta'],
        ['ai là vị vua cuối cùng của việt nam', 'lý nam đế là vị vua đầu tiên của nước ta']
    ]
)
print(scores)  # [13.7265625, -8.53125]

# You can map the scores into 0-1 by set "normalize=True", which will apply sigmoid function to the score
scores = reranker.compute_score(
    [
        ['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối của nước ta'],
        ['ai là vị vua cuối cùng của việt nam', 'lý nam đế là vị vua đầu tiên của nước ta']
    ],
    normalize=True
)
print(scores)  # [0.99999889840464, 0.00019716942196222918]

使用Huggingface transformers

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('namdp-ptit/ViRanker')
model = AutoModelForSequenceClassification.from_pretrained('namdp-ptit/ViRanker')
model.eval()

pairs = [
    ['ai là vị vua cuối cùng của việt nam', 'vua bảo đại là vị vua cuối cùng của nước ta'],
    ['ai là vị vua cuối cùng của việt nam', 'lý nam đế là vị vua đầu tiên của nước ta']
],
with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)

📚 详细文档

微调（Fine-tune）

数据格式

训练数据应为JSON文件，每行是一个如下格式的字典：

{"query": str, "pos": List[str], "neg": List[str]}

query 是查询内容，pos 是正文本列表，neg 是负文本列表。如果某个查询没有负文本，可以从整个语料库中随机采样一些作为负样本。此外，对于训练数据中的每个查询，我们使用大语言模型（LLMs）为其生成难负样本，方法是让LLMs创建与 pos 中文档相反的文档。

🔧 技术细节

性能表现

以下是我们的模型与其他一些预训练交叉编码器在MS MMarco Passage Reranking - Vi - Dev数据集上的对比结果：

模型名称	NDCG@3	MRR@3	NDCG@5	MRR@5	NDCG@10	MRR@10
namdp-ptit/ViRanker	0.6815	0.6641	0.6983	0.6894	0.7302	0.7107
itdainb/PhoRanker	0.6625	0.6458	0.7147	0.6731	0.7422	0.6830
kien-vu-uet/finetuned-phobert-passage-rerank-best-eval	0.0963	0.0883	0.1396	0.1131	0.1681	0.1246
BAAI/bge-reranker-v2-m3	0.6087	0.5841	0.6513	0.6062	0.6872	0.6209
BAAI/bge-reranker-v2-gemma	0.6088	0.5908	0.6446	0.6108	0.6785	0.6249

📄 许可证

本项目采用Apache-2.0许可证。

联系方式

邮箱：phuongnamdpn2k2@gmail.com
领英：Dang Phuong Nam
脸书：Phương Nam

支持项目

如果您认为本项目有帮助并希望支持其持续开发，可以通过以下方式做出贡献：

为仓库加星：通过为仓库加星来表达您的认可，您的支持将激励我们进行更多的开发和改进。
贡献代码：我们欢迎您的贡献！您可以通过报告错误、提交拉取请求或提出新功能建议来提供帮助。
捐赠：如果您希望提供资金支持，可以考虑进行捐赠。您可以通过以下方式捐赠：
- 越南商业银行（Vietcombank）：9912692172 - DANG PHUONG NAM

感谢您的支持！

引用

请按以下格式引用：

@misc{ViRanker,
  title={ViRanker: A Cross-encoder Model for Vietnamese Text Ranking},
  author={Nam Dang Phuong},
  year={2024},
  publisher={Huggingface},
}