bge-reranker-v2-m3-ko开源韩语重排序模型 - 轻松搞定文本排序任务

首页

Bge Reranker V2 M3 Ko

由 dragonkue 开发

这是一个基于BAAI/bge-reranker-v2-m3优化的韩语重排序模型，主要用于文本排序任务。

文本嵌入

Safetensors

支持多种语言开源协议:Apache-2.0 #韩语优化 #金融文本排序 #高精度重排序

下载量 877

发布时间 : 10/16/2024

模型简介

该模型是一个交叉编码器，直接以问题和文档作为输入，输出相似度分数。通过输入查询和段落，模型会返回相关性分数，适用于信息检索和文档排序任务。

模型特点

多语言支持

支持韩语和英语，特别针对韩语进行了优化。

高精度重排序

直接计算文本对的相似度，精度高于双编码器模型。

多种使用方式

支持通过Transformers、SentenceTransformers和FlagEmbedding库使用。

模型能力

文本相似度计算

文档重排序

信息检索

使用案例

信息检索

金融领域文档检索

用于检索与金融相关的韩语文档，如法律条文、政策文件等。

在韩语金融领域基准测试中，Top-1 F1得分为0.9123。

问答系统

问题与答案匹配

用于计算问题与候选答案的相关性，选择最匹配的答案。

🚀 重排器（交叉编码器）

与嵌入模型不同，重排器以问题和文档作为输入，直接输出相似度，而非嵌入向量。你可以通过向重排器输入查询和段落来获得相关性得分。该得分可以通过 sigmoid 函数映射到 [0,1] 范围内的浮点值。

🚀 快速开始

模型详情

属性	详情
基础模型	BAAI/bge-reranker-v2-m3
模型特性	该多语言模型已针对韩语进行了优化

使用 Transformers 库

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('dragonkue/bge-reranker-v2-m3-ko')
tokenizer = AutoTokenizer.from_pretrained('dragonkue/bge-reranker-v2-m3-ko')

features = tokenizer([['몇 년도에 지방세외수입법이 시행됐을까?', '실무교육을 통해 ‘지방세외수입법’에 대한 자치단체의 관심을 제고하고 자치단체의 차질 없는 업무 추진을 지원하였다. 이러한 준비과정을 거쳐 2014년 8월 7일부터 ‘지방세외수입법’이 시행되었다.'], 
['몇 년도에 지방세외수입법이 시행됐을까?', '식품의약품안전처는 21일 국내 제약기업 유바이오로직스가 개발 중인 신종 코로나바이러스 감염증(코로나19) 백신 후보물질 ‘유코백-19’의 임상시험 계획을 지난 20일 승인했다고 밝혔다.']],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
    logits = model(**features).logits
    scores = torch.sigmoid(logits)
    print(scores)
# [9.9997962e-01 5.0702977e-07]

使用 SentenceTransformers 库

首先安装 Sentence Transformers 库：

pip install -U sentence-transformers

from sentence_transformers import CrossEncoder

model = CrossEncoder('dragonkue/bge-reranker-v2-m3-ko', default_activation_function=torch.nn.Sigmoid())

scores = model.predict([['몇 년도에 지방세외수입법이 시행됐을까?', '실무교육을 통해 ‘지방세외수입법’에 대한 자치단체의 관심을 제고하고 자치단체의 차질 없는 업무 추진을 지원하였다. 이러한 준비과정을 거쳐 2014년 8월 7일부터 ‘지방세외수입법’이 시행되었다.'], 
['몇 년도에 지방세외수입법이 시행됐을까?', '식품의약품안전처는 21일 국내 제약기업 유바이오로직스가 개발 중인 신종 코로나바이러스 감염증(코로나19) 백신 후보물질 ‘유코백-19’의 임상시험 계획을 지난 20일 승인했다고 밝혔다.']])
print(scores)
# [9.9997962e-01 5.0702977e-07]

使用 FlagEmbedding 库

首先安装 FlagEmbedding 库：

pip install -U FlagEmbedding

from FlagEmbedding import FlagReranker

reranker = FlagReranker('dragonkue/bge-reranker-v2-m3-ko')

scores = reranker.compute_score([['몇 년도에 지방세외수입법이 시행됐을까?', '실무교육을 통해 ‘지방세외수입법’에 대한 자치단체의 관심을 제고하고 자치단체의 차질 없는 업무 추진을 지원하였다. 이러한 준비과정을 거쳐 2014년 8월 7일부터 ‘지방세외수입법’이 시행되었다.'], 
['몇 년도에 지방세외수입법이 시행됐을까?', '식품의약품안전처는 21일 국내 제약기업 유바이오로직스가 개발 중인 신종 코로나바이러스 감염증(코로나19) 백신 후보물질 ‘유코백-19’의 임상시험 계획을 지난 20일 승인했다고 밝혔다.']], normalize=True)
print(scores)
# [9.9997962e-01 5.0702977e-07]

微调

请参考：https://github.com/FlagOpen/FlagEmbedding

📚 详细文档

双编码器和交叉编码器

双编码器将文本转换为固定大小的向量，并高效地计算它们之间的相似度。它们速度快，非常适合语义搜索和分类等任务，适合快速处理大型数据集。

交叉编码器直接比较文本对以计算相似度得分，提供更准确的结果。虽然由于需要处理每一对文本，它们的速度较慢，但在对顶部结果进行重新排序方面表现出色，并且在高级 RAG 技术中对于增强文本生成非常重要。

使用 AutoRAG 的韩语嵌入基准测试

(https://github.com/Marker-Inc-Korea/AutoRAG-example-korean-embedding-benchmark)

这是一个针对金融领域的韩语嵌入基准测试。

前 1 名结果

双编码器（Sentence Transformer）

模型名称	F1 值	召回率	精确率
paraphrase-multilingual-mpnet-base-v2	0.3596	0.3596	0.3596
KoSimCSE-roberta	0.4298	0.4298	0.4298
Cohere embed-multilingual-v3.0	0.3596	0.3596	0.3596
openai ada 002	0.4737	0.4737	0.4737
multilingual-e5-large-instruct	0.4649	0.4649	0.4649
Upstage Embedding	0.6579	0.6579	0.6579
paraphrase-multilingual-MiniLM-L12-v2	0.2982	0.2982	0.2982
openai_embed_3_small	0.5439	0.5439	0.5439
ko-sroberta-multitask	0.4211	0.4211	0.4211
openai_embed_3_large	0.6053	0.6053	0.6053
KU-HIAI-ONTHEIT-large-v1	0.7105	0.7105	0.7105
KU-HIAI-ONTHEIT-large-v1.1	0.7193	0.7193	0.7193
kf-deberta-multitask	0.4561	0.4561	0.4561
gte-multilingual-base	0.5877	0.5877	0.5877
KoE5	0.7018	0.7018	0.7018
BGE-m3	0.6578	0.6578	0.6578
bge-m3-korean	0.5351	0.5351	0.5351
BGE-m3-ko	0.7456	0.7456	0.7456

交叉编码器（重排器）

模型名称	F1 值	召回率	精确率
gte-multilingual-reranker-base	0.7281	0.7281	0.7281
jina-reranker-v2-base-multilingual	0.8070	0.8070	0.8070
bge-reranker-v2-m3	0.8772	0.8772	0.8772
upskyy/ko-reranker-8k	0.8684	0.8684	0.8684
upskyy/ko-reranker	0.8333	0.8333	0.8333
mncai/bge-ko-reranker-560M	0.0088	0.0088	0.0088
Dongjin-kr/ko-reranker	0.8509	0.8509	0.8509
bge-reranker-v2-m3-ko	0.9123	0.9123	0.9123

前 3 名结果

双编码器（Sentence Transformer）

模型名称	F1 值	召回率	精确率
paraphrase-multilingual-mpnet-base-v2	0.2368	0.4737	0.1579
KoSimCSE-roberta	0.3026	0.6053	0.2018
Cohere embed-multilingual-v3.0	0.2851	0.5702	0.1901
openai ada 002	0.3553	0.7105	0.2368
multilingual-e5-large-instruct	0.3333	0.6667	0.2222
Upstage Embedding	0.4211	0.8421	0.2807
paraphrase-multilingual-MiniLM-L12-v2	0.2061	0.4123	0.1374
openai_embed_3_small	0.3640	0.7281	0.2427
ko-sroberta-multitask	0.2939	0.5877	0.1959
openai_embed_3_large	0.3947	0.7895	0.2632
KU-HIAI-ONTHEIT-large-v1	0.4386	0.8772	0.2924
KU-HIAI-ONTHEIT-large-v1.1	0.4430	0.8860	0.2953
kf-deberta-multitask	0.3158	0.6316	0.2105
gte-multilingual-base	0.4035	0.8070	0.2690
KoE5	0.4254	0.8509	0.2836
BGE-m3	0.4254	0.8508	0.2836
bge-m3-korean	0.3684	0.7368	0.2456
BGE-m3-ko	0.4517	0.9035	0.3011

交叉编码器（重排器）

模型名称	F1 值	召回率	精确率
gte-multilingual-reranker-base	0.4605	0.9211	0.3070
jina-reranker-v2-base-multilingual	0.4649	0.9298	0.3099
bge-reranker-v2-m3	0.4781	0.9561	0.3187
upskyy/ko-reranker-8k	0.4781	0.9561	0.3187
upskyy/ko-reranker	0.4649	0.9298	0.3099
mncai/bge-ko-reranker-560M	0.0044	0.0088	0.0029
Dongjin-kr/ko-reranker	0.4737	0.9474	0.3158
bge-reranker-v2-m3-ko	0.4825	0.9649	0.3216