KPF - SBERT - v1.1オープンソース文変換器モデル、クラスタリングと意味検索タスクに無料で利用可能

ホーム

Kpf Sbert V1.1

bongsooによって開発

これはKPFBERTを基にSentenceBERTでファインチューニングした文変換モデルで、文や段落を768次元のベクトル空間にマッピングし、クラスタリングや意味検索タスクに適しています。

テキスト埋め込み

Transformers

#韓英二言語意味類似度 #高精度文埋め込み #マルチタスク蒸留訓練

ダウンロード数 46

リリース時間 : 1/13/2023

モデル概要

このモデルはjinmang2/kpfbertモデルを基にSentenceBERTでファインチューニングしたバージョンで、複数回の訓練最適化を経て、韓国語と英語の文類似度タスクで優れた性能を発揮します。

モデル特徴

多言語サポート

韓国語と英語の文埋め込みをサポートし、両言語の類似度タスクで優れた性能を発揮

高性能

korsts、klue-stsなどの韓国語データセットで0.8750のスピアマン相関係数を達成し、同様の多言語モデルを上回る

多段階訓練

STS-蒸留-NLI交互訓練戦略を採用し、多段階最適化を通じてモデル性能を向上

モデル能力

文埋め込み

意味類似度計算

テキストクラスタリング

意味検索

使用事例

テキスト類似度

韓国語文類似度計算

2つの韓国語の文の間の意味類似度を計算

korstsデータセットで0.8750のスピアマン相関係数を達成

言語横断検索

韓国語と英語の間の言語横断意味検索をサポート

stsb_multi_mt英語データセットで0.8554の相関係数を達成

情報検索

意味検索

キーワードマッチングではなく意味に基づく文書検索システム

🚀 kpf-sbert-v1.1

このモデルはsentence-transformersをベースにしており、文章や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。jinmang2/kpfbertモデルをsentencebertでファインチューニングしたもので、(kpf-sbert-v1からNLI - STSの訓練を1回追加しています)。

🚀 クイックスタート

このモデルは文章の類似度を測定するために使用できます。具体的な使用方法については、以下の評価結果や訓練のセクションを参照してください。

✨ 主な機能

文章や段落を768次元の密ベクトル空間にマッピングすることができます。
クラスタリングや意味検索などのタスクに利用可能です。

📚 ドキュメント

🔍 評価結果

性能測定に使用したコーパスは、以下の韓国語(kor)と英語(en)の評価コーパスです。
- 韓国語 : korsts(1,379ペアの文章) と klue - sts(519ペアの文章)
- 英語 : stsb_multi_mt(1,376ペアの文章) と glue:stsb (1,500ペアの文章)
性能指標は cosin.spearman です。
評価測定コードはこちらを参照してください。

モデル	korsts	klue - sts	glue(stsb)	stsb_multi_mt(en)
distiluse - base - multilingual - cased - v2	0.7475	0.7855	0.8193	0.8075
paraphrase - multilingual - mpnet - base - v2	0.8201	0.7993	0.8907	0.8682
bongsoo/albert - small - kor - sbert - v1	0.8305	0.8588	0.8419	0.7965
bongsoo/klue - sbert - v1.0	0.8529	0.8952	0.8813	0.8469
bongsoo/kpf - sbert - v1.0	0.8590	0.8924	0.8840	0.8531
bongsoo/kpf - sbert - v1.1	0.8750	0.8900	0.8863	0.8554

このモデルの自動評価については、Sentence Embeddings Benchmark を参照してください: https://seb.sbert.net

🔧 訓練

jinmang2/kpfbert モデルを sts(10) - distil(10) - nli(3) - sts(10) - nli(3) - sts(10) で訓練しました。

このモデルは以下のパラメータで訓練されました。

共通

do_lower_case = 1, correct_bios = 0, polling_mode = mean

1.STS

コーパス : korsts(5,749) + kluestsV1.1(11,668) + stsb_multi_mt(5,749) + mteb/sickr - sts(9,927) + glue stsb(5,749) (合計:38,842)
パラメータ : lr: 1e - 4, eps: 1e - 6, warm_step = 10%, epochs: 10, train_batch: 128, eval_batch: 64, max_token_len: 72
訓練コードは[こちら](https://github.com/kobongsoo/BERT/blob/master/sbert/sentece - bert - sts.ipynb)を参照してください。

2.蒸留

教師モデル : paraphrase - multilingual - mpnet - base - v2(max_token_len:128)
コーパス : news_talk_en_ko_train.tsv (英語 - 韓国語の会話 - ニュースの並列コーパス : 1.38M)
パラメータ : lr: 5e - 5, eps: 1e - 8, epochs: 10, train_batch: 128, eval/test_batch: 64, max_token_len: 128(教師モデルが128なので合わせました)
訓練コードは[こちら](https://github.com/kobongsoo/BERT/blob/master/sbert/sbert - distillaton.ipynb)を参照してください。

3.NLI

コーパス : 訓練(967,852) : kornli(550,152), kluenli(24,998), glue - mnli(392,702) / 評価(3,519) : korsts(1,500), kluests(519), gluests(1,500)
ハイパーパラメータ : lr: 3e - 5, eps: 1e - 8, warm_step = 10%, epochs: 3, train/eval_batch: 64, max_token_len: 128
訓練コードは[こちら](https://github.com/kobongsoo/BERT/blob/master/sbert/sentence - bert - nli.ipynb)を参照してください。