BAAI_-_bge-reranker-v2-gemma-gguf開源模型 - 多語言文本相關性排序實用之選

首頁

BAAI Bge Reranker V2 Gemma Gguf

由RichardErkhov開發

基於Gemma-2B的多語言重排序模型，適用於文本相關性排序任務，支持多語言場景。

文本嵌入 #多語言重排序 #輕量級部署 #Gemma基座

下載量 1,482

發布時間 : 10/7/2024

模型概述

該模型直接以問題和文檔作為輸入，輸出相似度分數而非嵌入向量，適用於文本重排序任務。

模型特點

多語言支持

適用於多語言場景，在英語能力和多語言能力上均表現優異。

輕量級設計

模型設計輕量，易於部署，推理速度快。

直接相似度輸出

直接輸出查詢和文檔的相關性分數，無需額外計算。

模型能力

文本相關性評分

多語言文本處理

文檔重排序

使用案例

信息檢索

搜索引擎結果排序

對搜索引擎返回的結果進行重排序，提升相關性。

提高搜索結果的相關性和用戶滿意度。

推薦系統

內容推薦

對推薦內容進行相關性排序，提升推薦質量。

提高推薦內容的準確性和用戶點擊率。

🚀 Sentence-Transformers 文本重排器

Sentence-Transformers 是一個用於文本重排的庫，通過輸入問題和文檔，直接輸出相似度得分，而非嵌入向量。該庫提供了多種重排模型，適用於不同的語言和場景，可幫助用戶快速獲取文本相關性評分。

🚀 快速開始

安裝依賴庫

pip install -U FlagEmbedding

使用示例

普通重排器（bge-reranker-base / bge-reranker-large / bge-reranker-v2-m3 ）

from FlagEmbedding import FlagReranker
reranker = FlagReranker('BAAI/bge-reranker-v2-m3', use_fp16=True) # 設置 use_fp16 為 True 可在輕微降低性能的情況下加速計算

score = reranker.compute_score(['query', 'passage'])
print(score) # -5.65234375

# 可以通過設置 "normalize=True" 將分數映射到 0-1 之間，這將對分數應用 sigmoid 函數
score = reranker.compute_score(['query', 'passage'], normalize=True)
print(score) # 0.003497010252573502

scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']])
print(scores) # [-8.1875, 5.26171875]

# 可以通過設置 "normalize=True" 將分數映射到 0-1 之間，這將對分數應用 sigmoid 函數
scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']], normalize=True)
print(scores) # [0.00027803096387751553, 0.9948403768236574]

基於大語言模型的重排器

from FlagEmbedding import FlagLLMReranker
reranker = FlagLLMReranker('BAAI/bge-reranker-v2-gemma', use_fp16=True) # 設置 use_fp16 為 True 可在輕微降低性能的情況下加速計算
# reranker = FlagLLMReranker('BAAI/bge-reranker-v2-gemma', use_bf16=True) # 也可以設置 use_bf16=True 來在輕微降低性能的情況下加速計算

score = reranker.compute_score(['query', 'passage'])
print(score)

scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']])
print(scores)

基於大語言模型的分層重排器

from FlagEmbedding import LayerWiseFlagLLMReranker
reranker = LayerWiseFlagLLMReranker('BAAI/bge-reranker-v2-minicpm-layerwise', use_fp16=True) # 設置 use_fp16 為 True 可在輕微降低性能的情況下加速計算
# reranker = LayerWiseFlagLLMReranker('BAAI/bge-reranker-v2-minicpm-layerwise', use_bf16=True) # 也可以設置 use_bf16=True 來在輕微降低性能的情況下加速計算

score = reranker.compute_score(['query', 'passage'], cutoff_layers=[28]) # 調整 'cutoff_layers' 以選擇用於計算分數的層
print(score)

scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']], cutoff_layers=[28])
print(scores)

✨ 主要特性

與嵌入模型不同，重排器以問題和文檔作為輸入，直接輸出相似度得分，而非嵌入向量。
提供多種重排模型，支持中文和英文，部分模型支持多語言。
輕量級重排模型，易於部署，推理速度快。
可通過微調進一步優化模型性能。

📦 安裝指南

使用 pip 安裝 FlagEmbedding 庫：

pip install -U FlagEmbedding

📚 詳細文檔

模型列表

模型	基礎模型	語言	分層	特性
BAAI/bge-reranker-base	xlm-roberta-base	中文和英文	-	輕量級重排模型，易於部署，推理速度快。
BAAI/bge-reranker-large	xlm-roberta-large	中文和英文	-	輕量級重排模型，易於部署，推理速度快。
BAAI/bge-reranker-v2-m3	bge-m3	多語言	-	輕量級重排模型，具備強大的多語言能力，易於部署，推理速度快。
BAAI/bge-reranker-v2-gemma	gemma-2b	多語言	-	適用於多語言場景，在英語能力和多語言能力方面表現良好。
BAAI/bge-reranker-v2-minicpm-layerwise	MiniCPM-2B-dpo-bf16	多語言	8 - 40	適用於多語言場景，在英語和中文能力方面表現良好，可自由選擇輸出層，便於加速推理。

模型選擇建議

多語言場景：使用 BAAI/bge-reranker-v2-m3 和 BAAI/bge-reranker-v2-gemma。
中文或英文場景：使用 BAAI/bge-reranker-v2-m3 和 BAAI/bge-reranker-v2-minicpm-layerwise。
追求效率：使用 BAAI/bge-reranker-v2-m3 和 BAAI/bge-reranker-v2-minicpm-layerwise 的較低層。
追求更好性能：推薦使用 BAAI/bge-reranker-v2-minicpm-layerwise 和 BAAI/bge-reranker-v2-gemma。

量化模型

名稱	量化方法	大小
bge-reranker-v2-gemma.Q2_K.gguf	Q2_K	1.08GB
bge-reranker-v2-gemma.IQ3_XS.gguf	IQ3_XS	1.16GB
bge-reranker-v2-gemma.IQ3_S.gguf	IQ3_S	1.2GB
bge-reranker-v2-gemma.Q3_K_S.gguf	Q3_K_S	1.2GB
bge-reranker-v2-gemma.IQ3_M.gguf	IQ3_M	1.22GB
bge-reranker-v2-gemma.Q3_K.gguf	Q3_K	1.29GB
bge-reranker-v2-gemma.Q3_K_M.gguf	Q3_K_M	1.29GB
bge-reranker-v2-gemma.Q3_K_L.gguf	Q3_K_L	1.36GB
bge-reranker-v2-gemma.IQ4_XS.gguf	IQ4_XS	1.4GB
bge-reranker-v2-gemma.Q4_0.gguf	Q4_0	1.44GB
bge-reranker-v2-gemma.IQ4_NL.gguf	IQ4_NL	1.45GB
bge-reranker-v2-gemma.Q4_K_S.gguf	Q4_K_S	1.45GB
bge-reranker-v2-gemma.Q4_K.gguf	Q4_K	1.52GB
bge-reranker-v2-gemma.Q4_K_M.gguf	Q4_K_M	1.52GB
bge-reranker-v2-gemma.Q4_1.gguf	Q4_1	1.56GB
bge-reranker-v2-gemma.Q5_0.gguf	Q5_0	1.68GB
bge-reranker-v2-gemma.Q5_K_S.gguf	Q5_K_S	1.68GB
bge-reranker-v2-gemma.Q5_K.gguf	Q5_K	1.71GB
bge-reranker-v2-gemma.Q5_K_M.gguf	Q5_K_M	1.71GB
bge-reranker-v2-gemma.Q5_1.gguf	Q5_1	1.79GB
bge-reranker-v2-gemma.Q6_K.gguf	Q6_K	1.92GB
bge-reranker-v2-gemma.Q8_0.gguf	Q8_0	2.49GB

微調

數據格式

訓練數據應為一個 JSON 文件，每行是一個如下的字典：

{"query": str, "pos": List[str], "neg":List[str], "prompt": str}

query 是查詢，pos 是正文本列表，neg 是負文本列表，prompt 表示查詢和文本之間的關係。如果某個查詢沒有負文本，可以從整個語料庫中隨機採樣一些作為負樣本。

示例數據文件見 toy_finetune_data.jsonl。

訓練

可以使用以下代碼微調重排器：

基於大語言模型的重排器

torchrun --nproc_per_node {number of gpus} \
-m FlagEmbedding.llm_reranker.finetune_for_instruction.run \
--output_dir {path to save model} \
--model_name_or_path google/gemma-2b \
--train_data ./toy_finetune_data.jsonl \
--learning_rate 2e-4 \
--num_train_epochs 1 \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--dataloader_drop_last True \
--query_max_len 512 \
--passage_max_len 512 \
--train_group_size 16 \
--logging_steps 1 \
--save_steps 2000 \
--save_total_limit 50 \
--ddp_find_unused_parameters False \
--gradient_checkpointing \
--deepspeed stage1.json \
--warmup_ratio 0.1 \
--bf16 \
--use_lora True \
--lora_rank 32 \
--lora_alpha 64 \
--use_flash_attn True \
--target_modules q_proj k_proj v_proj o_proj

基於大語言模型的分層重排器

torchrun --nproc_per_node {number of gpus} \
-m FlagEmbedding.llm_reranker.finetune_for_layerwise.run \
--output_dir {path to save model} \
--model_name_or_path openbmb/MiniCPM-2B-dpo-bf16 \
--train_data ./toy_finetune_data.jsonl \
--learning_rate 2e-4 \
--num_train_epochs 1 \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--dataloader_drop_last True \
--query_max_len 512 \
--passage_max_len 512 \
--train_group_size 16 \
--logging_steps 1 \
--save_steps 2000 \
--save_total_limit 50 \
--ddp_find_unused_parameters False \
--gradient_checkpointing \
--deepspeed stage1.json \
--warmup_ratio 0.1 \
--bf16 \
--use_lora True \
--lora_rank 32 \
--lora_alpha 64 \
--use_flash_attn True \
--target_modules q_proj k_proj v_proj o_proj \
--start_layer 8 \
--head_multi True \
--head_type simple \
--lora_extra_parameters linear_head

評估

llama-index
BEIR 對 bge-en-v1.5 large 的前 100 個結果進行重排。

對 e5 mistral 7b instruct 的前 100 個結果進行重排。

CMTEB-retrieval 對 bge-zh-v1.5 large 的前 100 個結果進行重排。
miracl（多語言） 對 bge-m3 的前 100 個結果進行重排。

📄 許可證

本項目採用 Apache-2.0 許可證。

📚 引用

如果您覺得這個倉庫有用，請考慮給它加星並引用：

@misc{li2023making,
      title={Making Large Language Models A Better Foundation For Dense Retrieval}, 
      author={Chaofan Li and Zheng Liu and Shitao Xiao and Yingxia Shao},
      year={2023},
      eprint={2312.15503},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@misc{chen2024bge,
      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation}, 
      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
      year={2024},
      eprint={2402.03216},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}