bge-reranker-v2-m3-koオープンソース韓国語再ランキングモデル - テキストのランキングタスクを簡単に解決

ホーム

Bge Reranker V2 M3 Ko

dragonkueによって開発

これはBAAI/bge-reranker-v2-m3を基に韓国語向けに最適化されたリランキングモデルで、主にテキストランキングタスクに使用されます。

テキスト埋め込み

Safetensors

複数言語対応オープンソースライセンス:Apache-2.0 #韓国語最適化 #金融テキストランキング #高精度リランキング

ダウンロード数 877

リリース時間 : 10/16/2024

モデル概要

このモデルはクロスエンコーダーで、質問とドキュメントを直接入力として受け取り、類似度スコアを出力します。クエリと段落を入力すると、モデルは関連性スコアを返し、情報検索やドキュメントランキングタスクに適しています。

モデル特徴

多言語サポート

韓国語と英語をサポートし、特に韓国語向けに最適化されています。

高精度リランキング

テキストペアの類似度を直接計算し、デュアルエンコーダーモデルよりも高い精度を実現します。

複数の使用方法

Transformers、SentenceTransformers、FlagEmbeddingライブラリを通じて使用できます。

モデル能力

テキスト類似度計算

ドキュメントリランキング

情報検索

使用事例

情報検索

金融分野のドキュメント検索

金融関連の韓国語ドキュメント（法律条文、政策文書など）の検索に使用されます。

韓国語金融分野のベンチマークテストで、Top-1 F1スコアは0.9123でした。

質問応答システム

質問と回答のマッチング

質問と候補回答の関連性を計算し、最も一致する回答を選択するために使用されます。

🚀 リランカー (クロスエンコーダ)

埋め込みモデルとは異なり、リランカーは質問と文書を入力として使用し、埋め込みではなく直接類似度を出力します。リランカーにクエリとパッセージを入力することで、関連性スコアを取得できます。そして、このスコアはシグモイド関数によって[0,1]の浮動小数点数値にマッピングできます。

🚀 クイックスタート

このリランカーモデルは、質問と文書の入力から直接類似度を出力することができます。以下に、いくつかの使用方法を紹介します。

✨ 主な機能

埋め込みモデルとは異なり、質問と文書を入力として直接類似度を出力します。
クエリとパッセージを入力することで関連性スコアを取得でき、シグモイド関数で[0,1]の値にマッピングできます。
多言語モデルで、韓国語に対して最適化されています。

📦 インストール

Transformersを使用する場合

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('dragonkue/bge-reranker-v2-m3-ko')
tokenizer = AutoTokenizer.from_pretrained('dragonkue/bge-reranker-v2-m3-ko')

SentenceTransformersを使用する場合

まず、Sentence Transformersライブラリをインストールします。

pip install -U sentence-transformers

FlagEmbeddingを使用する場合

まず、FlagEmbeddingライブラリをインストールします。

pip install -U FlagEmbedding

💻 使用例

基本的な使用法

Transformersを使用する場合

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('dragonkue/bge-reranker-v2-m3-ko')
tokenizer = AutoTokenizer.from_pretrained('dragonkue/bge-reranker-v2-m3-ko')

features = tokenizer([['몇 년도에 지방세외수입법이 시행됐을까?', '실무교육을 통해 ‘지방세외수입법’에 대한 자치단체의 관심을 제고하고 자치단체의 차질 없는 업무 추진을 지원하였다. 이러한 준비과정을 거쳐 2014년 8월 7일부터 ‘지방세외수입법’이 시행되었다.'], 
['몇 년도에 지방세외수입법이 시행됐을까?', '식품의약품안전처는 21일 국내 제약기업 유바이오로직스가 개발 중인 신종 코로나바이러스 감염증(코로나19) 백신 후보물질 ‘유코백-19’의 임상시험 계획을 지난 20일 승인했다고 밝혔다.']],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
    logits = model(**features).logits
    scores = torch.sigmoid(logits)
    print(scores)
# [9.9997962e-01 5.0702977e-07]

SentenceTransformersを使用する場合

from sentence_transformers import CrossEncoder
import torch

model = CrossEncoder('dragonkue/bge-reranker-v2-m3-ko', default_activation_function=torch.nn.Sigmoid())

scores = model.predict([['몇 년도에 지방세외수입법이 시행됐을까?', '실무교육을 통해 ‘지방세외수입법’에 대한 자치단체의 관심을 제고하고 자치단체의 차질 없는 업무 추진을 지원하였다. 이러한 준비과정을 거쳐 2014년 8월 7일부터 ‘지방세외수입법’이 시행되었다.'], 
['몇 년도에 지방세외수입법이 시행됐을까?', '식품의약품안전처는 21일 국내 제약기업 유바이오로직스가 개발 중인 신종 코로나바이러스 감염증(코로나19) 백신 후보물질 ‘유코백-19’의 임상시험 계획을 지난 20일 승인했다고 밝혔다.']])
print(scores)
# [9.9997962e-01 5.0702977e-07]

FlagEmbeddingを使用する場合

from FlagEmbedding import FlagReranker

reranker = FlagReranker('dragonkue/bge-reranker-v2-m3-ko')

scores = reranker.compute_score([['몇 년도에 지방세외수입법이 시행됐을까?', '실무교육을 통해 ‘지방세외수입법’에 대한 자치단체의 관심을 제고하고 자치단체의 차질 없는 업무 추진을 지원하였다. 이러한 준비과정을 거쳐 2014년 8월 7일부터 ‘지방세외수입법’이 시행되었다.'], 
['몇 년도에 지방세외수입법이 시행됐을까?', '식품의약품안전처는 21일 국내 제약기업 유바이오로직스가 개발 중인 신종 코로나바이러스 감염증(코로나19) 백신 후보물질 ‘유코백-19’의 임상시험 계획을 지난 20일 승인했다고 밝혔다.']], normalize=True)
print(scores)
# [9.9997962e-01 5.0702977e-07]

📚 ドキュメント

モデル詳細

属性	详情
ベースモデル	BAAI/bge-reranker-v2-m3
多言語モデル	韓国語に対して最適化されています。

微調整

詳細は、https://github.com/FlagOpen/FlagEmbedding を参照してください。

評価

バイエンコーダとクロスエンコーダ

バイエンコーダはテキストを固定サイズのベクトルに変換し、それらの間の類似度を効率的に計算します。高速で、意味検索や分類などのタスクに最適で、大規模なデータセットを迅速に処理するのに適しています。

クロスエンコーダは、テキストのペアを直接比較して類似度スコアを計算し、より正確な結果を提供します。各ペアを処理する必要があるため速度は遅いですが、上位の結果を再ランキングするのに優れており、高度なRAG技術においてテキスト生成を強化するために重要です。

韓国語埋め込みベンチマーク with AutoRAG

(https://github.com/Marker-Inc-Korea/AutoRAG-example-korean-embedding-benchmark)

これは金融セクター向けの韓国語埋め込みベンチマークです。

Top-k 1

バイエンコーダ (Sentence Transformer)

モデル名	F1	再現率	適合率
paraphrase-multilingual-mpnet-base-v2	0.3596	0.3596	0.3596
KoSimCSE-roberta	0.4298	0.4298	0.4298
Cohere embed-multilingual-v3.0	0.3596	0.3596	0.3596
openai ada 002	0.4737	0.4737	0.4737
multilingual-e5-large-instruct	0.4649	0.4649	0.4649
Upstage Embedding	0.6579	0.6579	0.6579
paraphrase-multilingual-MiniLM-L12-v2	0.2982	0.2982	0.2982
openai_embed_3_small	0.5439	0.5439	0.5439
ko-sroberta-multitask	0.4211	0.4211	0.4211
openai_embed_3_large	0.6053	0.6053	0.6053
KU-HIAI-ONTHEIT-large-v1	0.7105	0.7105	0.7105
KU-HIAI-ONTHEIT-large-v1.1	0.7193	0.7193	0.7193
kf-deberta-multitask	0.4561	0.4561	0.4561
gte-multilingual-base	0.5877	0.5877	0.5877
KoE5	0.7018	0.7018	0.7018
BGE-m3	0.6578	0.6578	0.6578
bge-m3-korean	0.5351	0.5351	0.5351
BGE-m3-ko	0.7456	0.7456	0.7456

クロスエンコーダ (リランカー)

モデル名	F1	再現率	適合率
gte-multilingual-reranker-base	0.7281	0.7281	0.7281
jina-reranker-v2-base-multilingual	0.8070	0.8070	0.8070
bge-reranker-v2-m3	0.8772	0.8772	0.8772
upskyy/ko-reranker-8k	0.8684	0.8684	0.8684
upskyy/ko-reranker	0.8333	0.8333	0.8333
mncai/bge-ko-reranker-560M	0.0088	0.0088	0.0088
Dongjin-kr/ko-reranker	0.8509	0.8509	0.8509
bge-reranker-v2-m3-ko	0.9123	0.9123	0.9123

Top-k 3

バイエンコーダ (Sentence Transformer)

モデル名	F1	再現率	適合率
paraphrase-multilingual-mpnet-base-v2	0.2368	0.4737	0.1579
KoSimCSE-roberta	0.3026	0.6053	0.2018
Cohere embed-multilingual-v3.0	0.2851	0.5702	0.1901
openai ada 002	0.3553	0.7105	0.2368
multilingual-e5-large-instruct	0.3333	0.6667	0.2222
Upstage Embedding	0.4211	0.8421	0.2807
paraphrase-multilingual-MiniLM-L12-v2	0.2061	0.4123	0.1374
openai_embed_3_small	0.3640	0.7281	0.2427
ko-sroberta-multitask	0.2939	0.5877	0.1959
openai_embed_3_large	0.3947	0.7895	0.2632
KU-HIAI-ONTHEIT-large-v1	0.4386	0.8772	0.2924
KU-HIAI-ONTHEIT-large-v1.1	0.4430	0.8860	0.2953
kf-deberta-multitask	0.3158	0.6316	0.2105
gte-multilingual-base	0.4035	0.8070	0.2690
KoE5	0.4254	0.8509	0.2836
BGE-m3	0.4254	0.8508	0.2836
bge-m3-korean	0.3684	0.7368	0.2456
BGE-m3-ko	0.4517	0.9035	0.3011

クロスエンコーダ (リランカー)

モデル名	F1	再現率	適合率
gte-multilingual-reranker-base	0.4605	0.9211	0.3070
jina-reranker-v2-base-multilingual	0.4649	0.9298	0.3099
bge-reranker-v2-m3	0.4781	0.9561	0.3187
upskyy/ko-reranker-8k	0.4781	0.9561	0.3187
upskyy/ko-reranker	0.4649	0.9298	0.3099
mncai/bge-ko-reranker-560M	0.0044	0.0088	0.0029
Dongjin-kr/ko-reranker	0.4737	0.9474	0.3158
bge-reranker-v2-m3-ko	0.4825	0.9649	0.3216