kpf - sbert - v1.1开源句子转换器模型，免费用于聚类和语义搜索任务

首页

Kpf Sbert V1.1

由 bongsoo 开发

这是一个基于KPFBERT进行SentenceBERT微调的句子转换器模型，可将句子和段落映射到768维向量空间，适用于聚类或语义搜索任务。

文本嵌入

Transformers

#韩英双语语义相似度 #高精度句子嵌入 #多任务蒸馏训练

下载量 46

发布时间 : 1/13/2023

模型简介

该模型是基于jinmang2/kpfbert模型进行SentenceBERT微调的版本，经过多轮训练优化，在韩语和英语的句子相似度任务上表现优异。

模型特点

多语言支持

支持韩语和英语的句子嵌入，在两种语言的相似度任务上表现优异

高性能

在korsts、klue-sts等韩语数据集上达到0.8750的斯皮尔曼相关系数，优于同类多语言模型

多阶段训练

采用STS-蒸馏-NLI交替训练策略，通过多阶段优化提升模型性能

模型能力

句子嵌入

语义相似度计算

文本聚类

语义搜索

使用案例

文本相似度

韩语句子相似度计算

计算两个韩语句子之间的语义相似度

在korsts数据集上达到0.8750的斯皮尔曼相关系数

跨语言检索

支持韩语和英语之间的跨语言语义搜索

在stsb_multi_mt英语数据集上达到0.8554的相关系数

信息检索

语义搜索

基于语义而非关键词匹配的文档检索系统

🚀 kpf-sbert-v1.1

这是一个 sentence-transformers 模型，它可以将句子和段落映射到一个 768 维的密集向量空间，可用于聚类或语义搜索等任务。该模型是基于 jinmang2/kpfbert 模型用 sentencebert 进行微调得到的（在 kpf-sbert-v1 的基础上又进行了 1 次 NLI - STS 训练）。

🚀 快速开始

此模型可直接用于将句子和段落映射到 768 维的密集向量空间，以完成聚类或语义搜索等任务。

✨ 主要特性

基于 sentence-transformers 框架，能有效处理句子和段落的向量化。
对 jinmang2/kpfbert 模型进行微调，在多语言句子相似度任务上有良好表现。

📦 安装指南

文档未提及具体安装步骤，暂不提供。

💻 使用示例

文档未提供代码示例，暂不提供。

📚 详细文档

评估结果

评估语料：使用以下韩语（kor）和英语（en）评估语料进行性能测量。韩语语料为 korsts（1,379 对句子） 和 klue - sts（519 对句子）；英语语料为 stsb_multi_mt（1,376 对句子）和 glue:stsb（1,500 对句子）。
性能指标：使用 cosin.spearman。
评估测量代码：可参考此处。

模型	korsts	klue - sts	glue(stsb)	stsb_multi_mt(en)
distiluse - base - multilingual - cased - v2	0.7475	0.7855	0.8193	0.8075
paraphrase - multilingual - mpnet - base - v2	0.8201	0.7993	0.8907	0.8682
bongsoo/albert - small - kor - sbert - v1	0.8305	0.8588	0.8419	0.7965
bongsoo/klue - sbert - v1.0	0.8529	0.8952	0.8813	0.8469
bongsoo/kpf - sbert - v1.0	0.8590	0.8924	0.8840	0.8531
bongsoo/kpf - sbert - v1.1	0.8750	0.8900	0.8863	0.8554

如需对此模型进行自动评估，请参考 Sentence Embeddings Benchmark：https://seb.sbert.net

训练

对 jinmang2/kpfbert 模型进行 sts(10) - distil(10) - nli(3) - sts(10) - nli(3) - sts(10) 训练。

模型训练使用的参数如下：

通用参数

do_lower_case = 1, correct_bios = 0, polling_mode = mean

1. STS 训练

语料：korsts(5,749) + kluestsV1.1(11,668) + stsb_multi_mt(5,749) + mteb/sickr - sts(9,927) + glue stsb(5,749)（总计：38,842）
参数：lr: 1e - 4, eps: 1e - 6, warm_step = 10%, epochs: 10, train_batch: 128, eval_batch: 64, max_token_len: 72
训练代码：参考 [此处](https://github.com/kobongsoo/BERT/blob/master/sbert/sentece - bert - sts.ipynb)

2. 蒸馏训练

教师模型：paraphrase - multilingual - mpnet - base - v2（max_token_len: 128）
语料：news_talk_en_ko_train.tsv（英语 - 韩语对话 - 新闻平行语料：1.38M）
参数：lr: 5e - 5, eps: 1e - 8, epochs: 10, train_batch: 128, eval/test_batch: 64, max_token_len: 128（与教师模型保持一致）
训练代码：参考 [此处](https://github.com/kobongsoo/BERT/blob/master/sbert/sbert - distillaton.ipynb)

3. NLI 训练

语料：训练集（967,852）：kornli(550,152), kluenli(24,998), glue - mnli(392,702)；评估集（3,519）：korsts(1,500), kluests(519), gluests(1,500)
超参数：lr: 3e - 5, eps: 1e - 8, warm_step = 10%, epochs: 3, train/eval_batch: 64, max_token_len: 128
训练代码：参考 [此处](https://github.com/kobongsoo/BERT/blob/master/sbert/sentence - bert - nli.ipynb)