🚀 kpf-sbert-v1.1
這是一個 sentence-transformers 模型,它可以將句子和段落映射到一個 768 維的密集向量空間,可用於聚類或語義搜索等任務。該模型是基於 jinmang2/kpfbert 模型用 sentencebert 進行微調得到的(在 kpf-sbert-v1 的基礎上又進行了 1 次 NLI - STS 訓練)。
🚀 快速開始
此模型可直接用於將句子和段落映射到 768 維的密集向量空間,以完成聚類或語義搜索等任務。
✨ 主要特性
📦 安裝指南
文檔未提及具體安裝步驟,暫不提供。
💻 使用示例
文檔未提供代碼示例,暫不提供。
📚 詳細文檔
評估結果
- 評估語料:使用以下韓語(kor)和英語(en)評估語料進行性能測量。韓語語料為 korsts(1,379 對句子) 和 klue - sts(519 對句子);英語語料為 stsb_multi_mt(1,376 對句子)和 glue:stsb(1,500 對句子)。
- 性能指標:使用 cosin.spearman。
- 評估測量代碼:可參考 此處。
模型 |
korsts |
klue - sts |
glue(stsb) |
stsb_multi_mt(en) |
distiluse - base - multilingual - cased - v2 |
0.7475 |
0.7855 |
0.8193 |
0.8075 |
paraphrase - multilingual - mpnet - base - v2 |
0.8201 |
0.7993 |
0.8907 |
0.8682 |
bongsoo/albert - small - kor - sbert - v1 |
0.8305 |
0.8588 |
0.8419 |
0.7965 |
bongsoo/klue - sbert - v1.0 |
0.8529 |
0.8952 |
0.8813 |
0.8469 |
bongsoo/kpf - sbert - v1.0 |
0.8590 |
0.8924 |
0.8840 |
0.8531 |
bongsoo/kpf - sbert - v1.1 |
0.8750 |
0.8900 |
0.8863 |
0.8554 |
如需對此模型進行自動評估,請參考 Sentence Embeddings Benchmark:https://seb.sbert.net
訓練
- 對 jinmang2/kpfbert 模型進行 sts(10) - distil(10) - nli(3) - sts(10) - nli(3) - sts(10) 訓練。
模型訓練使用的參數如下:
通用參數
- do_lower_case = 1, correct_bios = 0, polling_mode = mean
1. STS 訓練
- 語料:korsts(5,749) + kluestsV1.1(11,668) + stsb_multi_mt(5,749) + mteb/sickr - sts(9,927) + glue stsb(5,749)(總計:38,842)
- 參數:lr: 1e - 4, eps: 1e - 6, warm_step = 10%, epochs: 10, train_batch: 128, eval_batch: 64, max_token_len: 72
- 訓練代碼:參考 [此處](https://github.com/kobongsoo/BERT/blob/master/sbert/sentece - bert - sts.ipynb)
2. 蒸餾訓練
- 教師模型:paraphrase - multilingual - mpnet - base - v2(max_token_len: 128)
- 語料:news_talk_en_ko_train.tsv(英語 - 韓語對話 - 新聞平行語料:1.38M)
- 參數:lr: 5e - 5, eps: 1e - 8, epochs: 10, train_batch: 128, eval/test_batch: 64, max_token_len: 128(與教師模型保持一致)
- 訓練代碼:參考 [此處](https://github.com/kobongsoo/BERT/blob/master/sbert/sbert - distillaton.ipynb)
3. NLI 訓練
- 語料:訓練集(967,852):kornli(550,152), kluenli(24,998), glue - mnli(392,702);評估集(3,519):korsts(1,500), kluests(519), gluests(1,500)
- 超參數:lr: 3e - 5, eps: 1e - 8, warm_step = 10%, epochs: 3, train/eval_batch: 64, max_token_len: 128
- 訓練代碼:參考 [此處](https://github.com/kobongsoo/BERT/blob/master/sbert/sentence - bert - nli.ipynb)
🔧 技術細節
此模型基於 sentence-transformers 框架,通過對 jinmang2/kpfbert 模型進行多階段的微調訓練,包括 STS 訓練、蒸餾訓練和 NLI 訓練,以提高其在句子相似度任務上的性能。在訓練過程中,使用了多種語料和不同的訓練參數,最終在多個評估語料上取得了較好的性能表現。
📄 許可證
文檔未提及許可證信息,暫不提供。
📖 引用與作者
作者:bongsoo