BAAI_-_bge-reranker-v2-gemma-gguf开源模型 - 多语言文本相关性排序实用之选

首页

BAAI Bge Reranker V2 Gemma Gguf

由 RichardErkhov 开发

基于Gemma-2B的多语言重排序模型，适用于文本相关性排序任务，支持多语言场景。

文本嵌入 #多语言重排序 #轻量级部署 #Gemma基座

下载量 1,482

发布时间 : 10/7/2024

模型简介

该模型直接以问题和文档作为输入，输出相似度分数而非嵌入向量，适用于文本重排序任务。

模型特点

多语言支持

适用于多语言场景，在英语能力和多语言能力上均表现优异。

轻量级设计

模型设计轻量，易于部署，推理速度快。

直接相似度输出

直接输出查询和文档的相关性分数，无需额外计算。

模型能力

文本相关性评分

多语言文本处理

文档重排序

使用案例

信息检索

搜索引擎结果排序

对搜索引擎返回的结果进行重排序，提升相关性。

提高搜索结果的相关性和用户满意度。

推荐系统

内容推荐

对推荐内容进行相关性排序，提升推荐质量。

提高推荐内容的准确性和用户点击率。

🚀 Sentence-Transformers 文本重排器

Sentence-Transformers 是一个用于文本重排的库，通过输入问题和文档，直接输出相似度得分，而非嵌入向量。该库提供了多种重排模型，适用于不同的语言和场景，可帮助用户快速获取文本相关性评分。

🚀 快速开始

安装依赖库

pip install -U FlagEmbedding

使用示例

普通重排器（bge-reranker-base / bge-reranker-large / bge-reranker-v2-m3 ）

from FlagEmbedding import FlagReranker
reranker = FlagReranker('BAAI/bge-reranker-v2-m3', use_fp16=True) # 设置 use_fp16 为 True 可在轻微降低性能的情况下加速计算

score = reranker.compute_score(['query', 'passage'])
print(score) # -5.65234375

# 可以通过设置 "normalize=True" 将分数映射到 0-1 之间，这将对分数应用 sigmoid 函数
score = reranker.compute_score(['query', 'passage'], normalize=True)
print(score) # 0.003497010252573502

scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']])
print(scores) # [-8.1875, 5.26171875]

# 可以通过设置 "normalize=True" 将分数映射到 0-1 之间，这将对分数应用 sigmoid 函数
scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']], normalize=True)
print(scores) # [0.00027803096387751553, 0.9948403768236574]

基于大语言模型的重排器

from FlagEmbedding import FlagLLMReranker
reranker = FlagLLMReranker('BAAI/bge-reranker-v2-gemma', use_fp16=True) # 设置 use_fp16 为 True 可在轻微降低性能的情况下加速计算
# reranker = FlagLLMReranker('BAAI/bge-reranker-v2-gemma', use_bf16=True) # 也可以设置 use_bf16=True 来在轻微降低性能的情况下加速计算

score = reranker.compute_score(['query', 'passage'])
print(score)

scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']])
print(scores)

基于大语言模型的分层重排器

from FlagEmbedding import LayerWiseFlagLLMReranker
reranker = LayerWiseFlagLLMReranker('BAAI/bge-reranker-v2-minicpm-layerwise', use_fp16=True) # 设置 use_fp16 为 True 可在轻微降低性能的情况下加速计算
# reranker = LayerWiseFlagLLMReranker('BAAI/bge-reranker-v2-minicpm-layerwise', use_bf16=True) # 也可以设置 use_bf16=True 来在轻微降低性能的情况下加速计算

score = reranker.compute_score(['query', 'passage'], cutoff_layers=[28]) # 调整 'cutoff_layers' 以选择用于计算分数的层
print(score)

scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']], cutoff_layers=[28])
print(scores)

✨ 主要特性

与嵌入模型不同，重排器以问题和文档作为输入，直接输出相似度得分，而非嵌入向量。
提供多种重排模型，支持中文和英文，部分模型支持多语言。
轻量级重排模型，易于部署，推理速度快。
可通过微调进一步优化模型性能。

📦 安装指南

使用 pip 安装 FlagEmbedding 库：

pip install -U FlagEmbedding

📚 详细文档

模型列表

模型	基础模型	语言	分层	特性
BAAI/bge-reranker-base	xlm-roberta-base	中文和英文	-	轻量级重排模型，易于部署，推理速度快。
BAAI/bge-reranker-large	xlm-roberta-large	中文和英文	-	轻量级重排模型，易于部署，推理速度快。
BAAI/bge-reranker-v2-m3	bge-m3	多语言	-	轻量级重排模型，具备强大的多语言能力，易于部署，推理速度快。
BAAI/bge-reranker-v2-gemma	gemma-2b	多语言	-	适用于多语言场景，在英语能力和多语言能力方面表现良好。
BAAI/bge-reranker-v2-minicpm-layerwise	MiniCPM-2B-dpo-bf16	多语言	8 - 40	适用于多语言场景，在英语和中文能力方面表现良好，可自由选择输出层，便于加速推理。

模型选择建议

多语言场景：使用 BAAI/bge-reranker-v2-m3 和 BAAI/bge-reranker-v2-gemma。
中文或英文场景：使用 BAAI/bge-reranker-v2-m3 和 BAAI/bge-reranker-v2-minicpm-layerwise。
追求效率：使用 BAAI/bge-reranker-v2-m3 和 BAAI/bge-reranker-v2-minicpm-layerwise 的较低层。
追求更好性能：推荐使用 BAAI/bge-reranker-v2-minicpm-layerwise 和 BAAI/bge-reranker-v2-gemma。

量化模型

名称	量化方法	大小
bge-reranker-v2-gemma.Q2_K.gguf	Q2_K	1.08GB
bge-reranker-v2-gemma.IQ3_XS.gguf	IQ3_XS	1.16GB
bge-reranker-v2-gemma.IQ3_S.gguf	IQ3_S	1.2GB
bge-reranker-v2-gemma.Q3_K_S.gguf	Q3_K_S	1.2GB
bge-reranker-v2-gemma.IQ3_M.gguf	IQ3_M	1.22GB
bge-reranker-v2-gemma.Q3_K.gguf	Q3_K	1.29GB
bge-reranker-v2-gemma.Q3_K_M.gguf	Q3_K_M	1.29GB
bge-reranker-v2-gemma.Q3_K_L.gguf	Q3_K_L	1.36GB
bge-reranker-v2-gemma.IQ4_XS.gguf	IQ4_XS	1.4GB
bge-reranker-v2-gemma.Q4_0.gguf	Q4_0	1.44GB
bge-reranker-v2-gemma.IQ4_NL.gguf	IQ4_NL	1.45GB
bge-reranker-v2-gemma.Q4_K_S.gguf	Q4_K_S	1.45GB
bge-reranker-v2-gemma.Q4_K.gguf	Q4_K	1.52GB
bge-reranker-v2-gemma.Q4_K_M.gguf	Q4_K_M	1.52GB
bge-reranker-v2-gemma.Q4_1.gguf	Q4_1	1.56GB
bge-reranker-v2-gemma.Q5_0.gguf	Q5_0	1.68GB
bge-reranker-v2-gemma.Q5_K_S.gguf	Q5_K_S	1.68GB
bge-reranker-v2-gemma.Q5_K.gguf	Q5_K	1.71GB
bge-reranker-v2-gemma.Q5_K_M.gguf	Q5_K_M	1.71GB
bge-reranker-v2-gemma.Q5_1.gguf	Q5_1	1.79GB
bge-reranker-v2-gemma.Q6_K.gguf	Q6_K	1.92GB
bge-reranker-v2-gemma.Q8_0.gguf	Q8_0	2.49GB

微调

数据格式

训练数据应为一个 JSON 文件，每行是一个如下的字典：

{"query": str, "pos": List[str], "neg":List[str], "prompt": str}

query 是查询，pos 是正文本列表，neg 是负文本列表，prompt 表示查询和文本之间的关系。如果某个查询没有负文本，可以从整个语料库中随机采样一些作为负样本。

示例数据文件见 toy_finetune_data.jsonl。

训练

可以使用以下代码微调重排器：

基于大语言模型的重排器

torchrun --nproc_per_node {number of gpus} \
-m FlagEmbedding.llm_reranker.finetune_for_instruction.run \
--output_dir {path to save model} \
--model_name_or_path google/gemma-2b \
--train_data ./toy_finetune_data.jsonl \
--learning_rate 2e-4 \
--num_train_epochs 1 \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--dataloader_drop_last True \
--query_max_len 512 \
--passage_max_len 512 \
--train_group_size 16 \
--logging_steps 1 \
--save_steps 2000 \
--save_total_limit 50 \
--ddp_find_unused_parameters False \
--gradient_checkpointing \
--deepspeed stage1.json \
--warmup_ratio 0.1 \
--bf16 \
--use_lora True \
--lora_rank 32 \
--lora_alpha 64 \
--use_flash_attn True \
--target_modules q_proj k_proj v_proj o_proj

基于大语言模型的分层重排器

torchrun --nproc_per_node {number of gpus} \
-m FlagEmbedding.llm_reranker.finetune_for_layerwise.run \
--output_dir {path to save model} \
--model_name_or_path openbmb/MiniCPM-2B-dpo-bf16 \
--train_data ./toy_finetune_data.jsonl \
--learning_rate 2e-4 \
--num_train_epochs 1 \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--dataloader_drop_last True \
--query_max_len 512 \
--passage_max_len 512 \
--train_group_size 16 \
--logging_steps 1 \
--save_steps 2000 \
--save_total_limit 50 \
--ddp_find_unused_parameters False \
--gradient_checkpointing \
--deepspeed stage1.json \
--warmup_ratio 0.1 \
--bf16 \
--use_lora True \
--lora_rank 32 \
--lora_alpha 64 \
--use_flash_attn True \
--target_modules q_proj k_proj v_proj o_proj \
--start_layer 8 \
--head_multi True \
--head_type simple \
--lora_extra_parameters linear_head

评估

llama-index
BEIR 对 bge-en-v1.5 large 的前 100 个结果进行重排。

对 e5 mistral 7b instruct 的前 100 个结果进行重排。

CMTEB-retrieval 对 bge-zh-v1.5 large 的前 100 个结果进行重排。
miracl（多语言） 对 bge-m3 的前 100 个结果进行重排。

📄 许可证

本项目采用 Apache-2.0 许可证。

📚 引用

如果您觉得这个仓库有用，请考虑给它加星并引用：

@misc{li2023making,
      title={Making Large Language Models A Better Foundation For Dense Retrieval}, 
      author={Chaofan Li and Zheng Liu and Shitao Xiao and Yingxia Shao},
      year={2023},
      eprint={2312.15503},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@misc{chen2024bge,
      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation}, 
      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
      year={2024},
      eprint={2402.03216},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}