🚀 kpf-sbert-v1.1
这是一个 sentence-transformers 模型,它可以将句子和段落映射到一个 768 维的密集向量空间,可用于聚类或语义搜索等任务。该模型是基于 jinmang2/kpfbert 模型用 sentencebert 进行微调得到的(在 kpf-sbert-v1 的基础上又进行了 1 次 NLI - STS 训练)。
🚀 快速开始
此模型可直接用于将句子和段落映射到 768 维的密集向量空间,以完成聚类或语义搜索等任务。
✨ 主要特性
📦 安装指南
文档未提及具体安装步骤,暂不提供。
💻 使用示例
文档未提供代码示例,暂不提供。
📚 详细文档
评估结果
- 评估语料:使用以下韩语(kor)和英语(en)评估语料进行性能测量。韩语语料为 korsts(1,379 对句子) 和 klue - sts(519 对句子);英语语料为 stsb_multi_mt(1,376 对句子)和 glue:stsb(1,500 对句子)。
- 性能指标:使用 cosin.spearman。
- 评估测量代码:可参考 此处。
模型 |
korsts |
klue - sts |
glue(stsb) |
stsb_multi_mt(en) |
distiluse - base - multilingual - cased - v2 |
0.7475 |
0.7855 |
0.8193 |
0.8075 |
paraphrase - multilingual - mpnet - base - v2 |
0.8201 |
0.7993 |
0.8907 |
0.8682 |
bongsoo/albert - small - kor - sbert - v1 |
0.8305 |
0.8588 |
0.8419 |
0.7965 |
bongsoo/klue - sbert - v1.0 |
0.8529 |
0.8952 |
0.8813 |
0.8469 |
bongsoo/kpf - sbert - v1.0 |
0.8590 |
0.8924 |
0.8840 |
0.8531 |
bongsoo/kpf - sbert - v1.1 |
0.8750 |
0.8900 |
0.8863 |
0.8554 |
如需对此模型进行自动评估,请参考 Sentence Embeddings Benchmark:https://seb.sbert.net
训练
- 对 jinmang2/kpfbert 模型进行 sts(10) - distil(10) - nli(3) - sts(10) - nli(3) - sts(10) 训练。
模型训练使用的参数如下:
通用参数
- do_lower_case = 1, correct_bios = 0, polling_mode = mean
1. STS 训练
- 语料:korsts(5,749) + kluestsV1.1(11,668) + stsb_multi_mt(5,749) + mteb/sickr - sts(9,927) + glue stsb(5,749)(总计:38,842)
- 参数:lr: 1e - 4, eps: 1e - 6, warm_step = 10%, epochs: 10, train_batch: 128, eval_batch: 64, max_token_len: 72
- 训练代码:参考 [此处](https://github.com/kobongsoo/BERT/blob/master/sbert/sentece - bert - sts.ipynb)
2. 蒸馏训练
- 教师模型:paraphrase - multilingual - mpnet - base - v2(max_token_len: 128)
- 语料:news_talk_en_ko_train.tsv(英语 - 韩语对话 - 新闻平行语料:1.38M)
- 参数:lr: 5e - 5, eps: 1e - 8, epochs: 10, train_batch: 128, eval/test_batch: 64, max_token_len: 128(与教师模型保持一致)
- 训练代码:参考 [此处](https://github.com/kobongsoo/BERT/blob/master/sbert/sbert - distillaton.ipynb)
3. NLI 训练
- 语料:训练集(967,852):kornli(550,152), kluenli(24,998), glue - mnli(392,702);评估集(3,519):korsts(1,500), kluests(519), gluests(1,500)
- 超参数:lr: 3e - 5, eps: 1e - 8, warm_step = 10%, epochs: 3, train/eval_batch: 64, max_token_len: 128
- 训练代码:参考 [此处](https://github.com/kobongsoo/BERT/blob/master/sbert/sentence - bert - nli.ipynb)
🔧 技术细节
此模型基于 sentence-transformers 框架,通过对 jinmang2/kpfbert 模型进行多阶段的微调训练,包括 STS 训练、蒸馏训练和 NLI 训练,以提高其在句子相似度任务上的性能。在训练过程中,使用了多种语料和不同的训练参数,最终在多个评估语料上取得了较好的性能表现。
📄 许可证
文档未提及许可证信息,暂不提供。
📖 引用与作者
作者:bongsoo