Bge Reranker V2 M3 Ko
B
Bge Reranker V2 M3 Ko
由dragonkue開發
這是一個基於BAAI/bge-reranker-v2-m3優化的韓語重排序模型,主要用於文本排序任務。
下載量 877
發布時間 : 10/16/2024
模型概述
該模型是一個交叉編碼器,直接以問題和文檔作為輸入,輸出相似度分數。通過輸入查詢和段落,模型會返回相關性分數,適用於信息檢索和文檔排序任務。
模型特點
多語言支持
支持韓語和英語,特別針對韓語進行了優化。
高精度重排序
直接計算文本對的相似度,精度高於雙編碼器模型。
多種使用方式
支持通過Transformers、SentenceTransformers和FlagEmbedding庫使用。
模型能力
文本相似度計算
文檔重排序
信息檢索
使用案例
信息檢索
金融領域文檔檢索
用於檢索與金融相關的韓語文檔,如法律條文、政策文件等。
在韓語金融領域基準測試中,Top-1 F1得分為0.9123。
問答系統
問題與答案匹配
用於計算問題與候選答案的相關性,選擇最匹配的答案。
🚀 重排器(交叉編碼器)
與嵌入模型不同,重排器以問題和文檔作為輸入,直接輸出相似度,而非嵌入向量。你可以通過向重排器輸入查詢和段落來獲得相關性得分。該得分可以通過 sigmoid 函數映射到 [0,1] 範圍內的浮點值。
🚀 快速開始
模型詳情
屬性 | 詳情 |
---|---|
基礎模型 | BAAI/bge-reranker-v2-m3 |
模型特性 | 該多語言模型已針對韓語進行了優化 |
使用 Transformers 庫
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model = AutoModelForSequenceClassification.from_pretrained('dragonkue/bge-reranker-v2-m3-ko')
tokenizer = AutoTokenizer.from_pretrained('dragonkue/bge-reranker-v2-m3-ko')
features = tokenizer([['몇 년도에 지방세외수입법이 시행됐을까?', '실무교육을 통해 ‘지방세외수입법’에 대한 자치단체의 관심을 제고하고 자치단체의 차질 없는 업무 추진을 지원하였다. 이러한 준비과정을 거쳐 2014년 8월 7일부터 ‘지방세외수입법’이 시행되었다.'],
['몇 년도에 지방세외수입법이 시행됐을까?', '식품의약품안전처는 21일 국내 제약기업 유바이오로직스가 개발 중인 신종 코로나바이러스 감염증(코로나19) 백신 후보물질 ‘유코백-19’의 임상시험 계획을 지난 20일 승인했다고 밝혔다.']], padding=True, truncation=True, return_tensors="pt")
model.eval()
with torch.no_grad():
logits = model(**features).logits
scores = torch.sigmoid(logits)
print(scores)
# [9.9997962e-01 5.0702977e-07]
使用 SentenceTransformers 庫
首先安裝 Sentence Transformers 庫:
pip install -U sentence-transformers
from sentence_transformers import CrossEncoder
model = CrossEncoder('dragonkue/bge-reranker-v2-m3-ko', default_activation_function=torch.nn.Sigmoid())
scores = model.predict([['몇 년도에 지방세외수입법이 시행됐을까?', '실무교육을 통해 ‘지방세외수입법’에 대한 자치단체의 관심을 제고하고 자치단체의 차질 없는 업무 추진을 지원하였다. 이러한 준비과정을 거쳐 2014년 8월 7일부터 ‘지방세외수입법’이 시행되었다.'],
['몇 년도에 지방세외수입법이 시행됐을까?', '식품의약품안전처는 21일 국내 제약기업 유바이오로직스가 개발 중인 신종 코로나바이러스 감염증(코로나19) 백신 후보물질 ‘유코백-19’의 임상시험 계획을 지난 20일 승인했다고 밝혔다.']])
print(scores)
# [9.9997962e-01 5.0702977e-07]
使用 FlagEmbedding 庫
首先安裝 FlagEmbedding 庫:
pip install -U FlagEmbedding
from FlagEmbedding import FlagReranker
reranker = FlagReranker('dragonkue/bge-reranker-v2-m3-ko')
scores = reranker.compute_score([['몇 년도에 지방세외수입법이 시행됐을까?', '실무교육을 통해 ‘지방세외수입법’에 대한 자치단체의 관심을 제고하고 자치단체의 차질 없는 업무 추진을 지원하였다. 이러한 준비과정을 거쳐 2014년 8월 7일부터 ‘지방세외수입법’이 시행되었다.'],
['몇 년도에 지방세외수입법이 시행됐을까?', '식품의약품안전처는 21일 국내 제약기업 유바이오로직스가 개발 중인 신종 코로나바이러스 감염증(코로나19) 백신 후보물질 ‘유코백-19’의 임상시험 계획을 지난 20일 승인했다고 밝혔다.']], normalize=True)
print(scores)
# [9.9997962e-01 5.0702977e-07]
微調
請參考:https://github.com/FlagOpen/FlagEmbedding
📚 詳細文檔
雙編碼器和交叉編碼器
雙編碼器將文本轉換為固定大小的向量,並高效地計算它們之間的相似度。它們速度快,非常適合語義搜索和分類等任務,適合快速處理大型數據集。
交叉編碼器直接比較文本對以計算相似度得分,提供更準確的結果。雖然由於需要處理每一對文本,它們的速度較慢,但在對頂部結果進行重新排序方面表現出色,並且在高級 RAG 技術中對於增強文本生成非常重要。
使用 AutoRAG 的韓語嵌入基準測試
(https://github.com/Marker-Inc-Korea/AutoRAG-example-korean-embedding-benchmark)
這是一個針對金融領域的韓語嵌入基準測試。
前 1 名結果
雙編碼器(Sentence Transformer)
模型名稱 | F1 值 | 召回率 | 精確率 |
---|---|---|---|
paraphrase-multilingual-mpnet-base-v2 | 0.3596 | 0.3596 | 0.3596 |
KoSimCSE-roberta | 0.4298 | 0.4298 | 0.4298 |
Cohere embed-multilingual-v3.0 | 0.3596 | 0.3596 | 0.3596 |
openai ada 002 | 0.4737 | 0.4737 | 0.4737 |
multilingual-e5-large-instruct | 0.4649 | 0.4649 | 0.4649 |
Upstage Embedding | 0.6579 | 0.6579 | 0.6579 |
paraphrase-multilingual-MiniLM-L12-v2 | 0.2982 | 0.2982 | 0.2982 |
openai_embed_3_small | 0.5439 | 0.5439 | 0.5439 |
ko-sroberta-multitask | 0.4211 | 0.4211 | 0.4211 |
openai_embed_3_large | 0.6053 | 0.6053 | 0.6053 |
KU-HIAI-ONTHEIT-large-v1 | 0.7105 | 0.7105 | 0.7105 |
KU-HIAI-ONTHEIT-large-v1.1 | 0.7193 | 0.7193 | 0.7193 |
kf-deberta-multitask | 0.4561 | 0.4561 | 0.4561 |
gte-multilingual-base | 0.5877 | 0.5877 | 0.5877 |
KoE5 | 0.7018 | 0.7018 | 0.7018 |
BGE-m3 | 0.6578 | 0.6578 | 0.6578 |
bge-m3-korean | 0.5351 | 0.5351 | 0.5351 |
BGE-m3-ko | 0.7456 | 0.7456 | 0.7456 |
交叉編碼器(重排器)
模型名稱 | F1 值 | 召回率 | 精確率 |
---|---|---|---|
gte-multilingual-reranker-base | 0.7281 | 0.7281 | 0.7281 |
jina-reranker-v2-base-multilingual | 0.8070 | 0.8070 | 0.8070 |
bge-reranker-v2-m3 | 0.8772 | 0.8772 | 0.8772 |
upskyy/ko-reranker-8k | 0.8684 | 0.8684 | 0.8684 |
upskyy/ko-reranker | 0.8333 | 0.8333 | 0.8333 |
mncai/bge-ko-reranker-560M | 0.0088 | 0.0088 | 0.0088 |
Dongjin-kr/ko-reranker | 0.8509 | 0.8509 | 0.8509 |
bge-reranker-v2-m3-ko | 0.9123 | 0.9123 | 0.9123 |
前 3 名結果
雙編碼器(Sentence Transformer)
模型名稱 | F1 值 | 召回率 | 精確率 |
---|---|---|---|
paraphrase-multilingual-mpnet-base-v2 | 0.2368 | 0.4737 | 0.1579 |
KoSimCSE-roberta | 0.3026 | 0.6053 | 0.2018 |
Cohere embed-multilingual-v3.0 | 0.2851 | 0.5702 | 0.1901 |
openai ada 002 | 0.3553 | 0.7105 | 0.2368 |
multilingual-e5-large-instruct | 0.3333 | 0.6667 | 0.2222 |
Upstage Embedding | 0.4211 | 0.8421 | 0.2807 |
paraphrase-multilingual-MiniLM-L12-v2 | 0.2061 | 0.4123 | 0.1374 |
openai_embed_3_small | 0.3640 | 0.7281 | 0.2427 |
ko-sroberta-multitask | 0.2939 | 0.5877 | 0.1959 |
openai_embed_3_large | 0.3947 | 0.7895 | 0.2632 |
KU-HIAI-ONTHEIT-large-v1 | 0.4386 | 0.8772 | 0.2924 |
KU-HIAI-ONTHEIT-large-v1.1 | 0.4430 | 0.8860 | 0.2953 |
kf-deberta-multitask | 0.3158 | 0.6316 | 0.2105 |
gte-multilingual-base | 0.4035 | 0.8070 | 0.2690 |
KoE5 | 0.4254 | 0.8509 | 0.2836 |
BGE-m3 | 0.4254 | 0.8508 | 0.2836 |
bge-m3-korean | 0.3684 | 0.7368 | 0.2456 |
BGE-m3-ko | 0.4517 | 0.9035 | 0.3011 |
交叉編碼器(重排器)
模型名稱 | F1 值 | 召回率 | 精確率 |
---|---|---|---|
gte-multilingual-reranker-base | 0.4605 | 0.9211 | 0.3070 |
jina-reranker-v2-base-multilingual | 0.4649 | 0.9298 | 0.3099 |
bge-reranker-v2-m3 | 0.4781 | 0.9561 | 0.3187 |
upskyy/ko-reranker-8k | 0.4781 | 0.9561 | 0.3187 |
upskyy/ko-reranker | 0.4649 | 0.9298 | 0.3099 |
mncai/bge-ko-reranker-560M | 0.0044 | 0.0088 | 0.0029 |
Dongjin-kr/ko-reranker | 0.4737 | 0.9474 | 0.3158 |
bge-reranker-v2-m3-ko | 0.4825 | 0.9649 | 0.3216 |
📄 許可證
本項目採用 Apache-2.0 許可證。
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98