kpf - sbert - v1.1開源句子轉換器模型，免費用於聚類和語義搜索任務

首頁

Kpf Sbert V1.1

由bongsoo開發

這是一個基於KPFBERT進行SentenceBERT微調的句子轉換器模型，可將句子和段落映射到768維向量空間，適用於聚類或語義搜索任務。

文本嵌入

Transformers

#韓英雙語語義相似度 #高精度句子嵌入 #多任務蒸餾訓練

下載量 46

發布時間 : 1/13/2023

模型概述

該模型是基於jinmang2/kpfbert模型進行SentenceBERT微調的版本，經過多輪訓練優化，在韓語和英語的句子相似度任務上表現優異。

模型特點

多語言支持

支持韓語和英語的句子嵌入，在兩種語言的相似度任務上表現優異

高性能

在korsts、klue-sts等韓語數據集上達到0.8750的斯皮爾曼相關係數，優於同類多語言模型

多階段訓練

採用STS-蒸餾-NLI交替訓練策略，通過多階段優化提升模型性能

模型能力

句子嵌入

語義相似度計算

文本聚類

語義搜索

使用案例

文本相似度

韓語句子相似度計算

計算兩個韓語句子之間的語義相似度

在korsts數據集上達到0.8750的斯皮爾曼相關係數

跨語言檢索

支持韓語和英語之間的跨語言語義搜索

在stsb_multi_mt英語數據集上達到0.8554的相關係數

信息檢索

語義搜索

基於語義而非關鍵詞匹配的文檔檢索系統

🚀 kpf-sbert-v1.1

這是一個 sentence-transformers 模型，它可以將句子和段落映射到一個 768 維的密集向量空間，可用於聚類或語義搜索等任務。該模型是基於 jinmang2/kpfbert 模型用 sentencebert 進行微調得到的（在 kpf-sbert-v1 的基礎上又進行了 1 次 NLI - STS 訓練）。

🚀 快速開始

此模型可直接用於將句子和段落映射到 768 維的密集向量空間，以完成聚類或語義搜索等任務。

✨ 主要特性

基於 sentence-transformers 框架，能有效處理句子和段落的向量化。
對 jinmang2/kpfbert 模型進行微調，在多語言句子相似度任務上有良好表現。

📦 安裝指南

文檔未提及具體安裝步驟，暫不提供。

💻 使用示例

文檔未提供代碼示例，暫不提供。

📚 詳細文檔

評估結果

評估語料：使用以下韓語（kor）和英語（en）評估語料進行性能測量。韓語語料為 korsts（1,379 對句子） 和 klue - sts（519 對句子）；英語語料為 stsb_multi_mt（1,376 對句子）和 glue:stsb（1,500 對句子）。
性能指標：使用 cosin.spearman。
評估測量代碼：可參考此處。

模型	korsts	klue - sts	glue(stsb)	stsb_multi_mt(en)
distiluse - base - multilingual - cased - v2	0.7475	0.7855	0.8193	0.8075
paraphrase - multilingual - mpnet - base - v2	0.8201	0.7993	0.8907	0.8682
bongsoo/albert - small - kor - sbert - v1	0.8305	0.8588	0.8419	0.7965
bongsoo/klue - sbert - v1.0	0.8529	0.8952	0.8813	0.8469
bongsoo/kpf - sbert - v1.0	0.8590	0.8924	0.8840	0.8531
bongsoo/kpf - sbert - v1.1	0.8750	0.8900	0.8863	0.8554

如需對此模型進行自動評估，請參考 Sentence Embeddings Benchmark：https://seb.sbert.net

訓練

對 jinmang2/kpfbert 模型進行 sts(10) - distil(10) - nli(3) - sts(10) - nli(3) - sts(10) 訓練。

模型訓練使用的參數如下：

通用參數

do_lower_case = 1, correct_bios = 0, polling_mode = mean

1. STS 訓練

語料：korsts(5,749) + kluestsV1.1(11,668) + stsb_multi_mt(5,749) + mteb/sickr - sts(9,927) + glue stsb(5,749)（總計：38,842）
參數：lr: 1e - 4, eps: 1e - 6, warm_step = 10%, epochs: 10, train_batch: 128, eval_batch: 64, max_token_len: 72
訓練代碼：參考 [此處](https://github.com/kobongsoo/BERT/blob/master/sbert/sentece - bert - sts.ipynb)

2. 蒸餾訓練

教師模型：paraphrase - multilingual - mpnet - base - v2（max_token_len: 128）
語料：news_talk_en_ko_train.tsv（英語 - 韓語對話 - 新聞平行語料：1.38M）
參數：lr: 5e - 5, eps: 1e - 8, epochs: 10, train_batch: 128, eval/test_batch: 64, max_token_len: 128（與教師模型保持一致）
訓練代碼：參考 [此處](https://github.com/kobongsoo/BERT/blob/master/sbert/sbert - distillaton.ipynb)

3. NLI 訓練

語料：訓練集（967,852）：kornli(550,152), kluenli(24,998), glue - mnli(392,702)；評估集（3,519）：korsts(1,500), kluests(519), gluests(1,500)
超參數：lr: 3e - 5, eps: 1e - 8, warm_step = 10%, epochs: 3, train/eval_batch: 64, max_token_len: 128
訓練代碼：參考 [此處](https://github.com/kobongsoo/BERT/blob/master/sbert/sentence - bert - nli.ipynb)