albert-small-kor-sbert-v1开源模型 - 实现句子段落映射，助力聚类与语义搜索

首页

Albert Small Kor Sbert V1

由 bongsoo 开发

基于albert-small-kor-v1模型构建的SentenceBERT版本，用于将句子和段落映射到768维的密集向量空间，适用于聚类或语义搜索等任务。

文本嵌入

Transformers

#韩语句子嵌入 #多语言相似度计算 #ALBERT轻量优化

下载量 128

发布时间 : 1/11/2023

模型简介

这是一个sentence-transformers模型，专门用于生成句子和段落的密集向量表示，支持韩语和英语。

模型特点

多语言支持

支持韩语和英语的句子嵌入生成。

高效训练

通过STS、蒸馏和NLI三个阶段进行训练，优化了模型性能。

高维向量空间

将句子和段落映射到768维的密集向量空间，适用于多种下游任务。

模型能力

句子嵌入生成

语义搜索

文本聚类

句子相似度计算

使用案例

语义搜索

文档检索

用于检索与查询句子语义相似的文档。

高准确率的语义匹配。

文本聚类

新闻分类

将相似的新闻文章聚类到一起。

高效的文本分组。

🚀 albert-small-kor-sbert-v1

这是一个 sentence-transformers 模型，它可以将句子和段落映射到一个 768 维的密集向量空间，可用于聚类或语义搜索等任务。该模型基于 albert-small-kor-v1 模型通过 sentencebert 方法构建而成。

🚀 快速开始

本模型可通过两种方式使用，分别是使用 sentence-transformers 库和直接使用 HuggingFace Transformers 库。下面将分别介绍这两种使用方式。

📦 安装指南

若要使用 sentence-transformers 来调用本模型，需先安装该库：

pip install -U sentence-transformers

💻 使用示例

基础用法（Sentence-Transformers）

安装好 sentence-transformers 后，就可以按如下方式使用该模型：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('bongsoo/albert-small-kor-sbert-v1')
embeddings = model.encode(sentences)
print(embeddings)

高级用法（HuggingFace Transformers）

若不使用 sentence-transformers，可以按以下步骤使用该模型：首先将输入传递给 Transformer 模型，然后对上下文词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


def cls_pooling(model_output, attention_mask):
    return model_output[0][:,0]


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('bongsoo/albert-small-kor-sbert-v1')
model = AutoModel.from_pretrained('bongsoo/albert-small-kor-sbert-v1')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, cls pooling.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 详细文档

评估结果

性能评估使用了以下韩语（kor）和英语（en）评估语料库：
- 韩语：korsts（1,379 对句子） 和 klue-sts（519 对句子）
- 英语：stsb_multi_mt（1,376 对句子）和 glue:stsb（1,500 对句子）
性能指标为 cosin.spearman
评估代码请参考这里

模型	korsts	klue-sts	glue(stsb)	stsb_multi_mt(en)
distiluse-base-multilingual-cased-v2	0.7475	0.7855	0.8193	0.8075
paraphrase-multilingual-mpnet-base-v2	0.8201	0.7993	0.8907	0.8682
bongsoo/moco-sentencedistilbertV2.1	0.8390	0.8767	0.8805	0.8548
bongsoo/albert-small-kor-sbert-v1	0.8305	0.8588	0.8419	0.7965

如需对该模型进行自动评估，请参考 Sentence Embeddings Benchmark：https://seb.sbert.net

训练过程

本模型基于 albert-small-kor-v1 模型，按照 sts(10)-distil(10)-nli(3)-sts(10) 的顺序进行训练。

训练参数

通用参数：
- do_lower_case=1, correct_bios=0, polling_mode=cls

1. STS 训练

语料库：korsts(5,749) + kluestsV1.1(11,668) + stsb_multi_mt(5,749) + mteb/sickr-sts(9,927) + glue stsb(5,749)（总计：38,842）
参数：lr: 1e-4, eps: 1e-6, warm_step=10%, epochs: 10, train_batch: 32, eval_batch: 64, max_token_len: 72
训练代码：这里

2. 蒸馏训练

教师模型：paraphrase-multilingual-mpnet-base-v2（max_token_len:128）
语料库：news_talk_en_ko_train.tsv（英语 - 韩语对话 - 新闻平行语料库：1.38M）
参数：lr: 5e-5, eps: 1e-8, epochs: 10, train_batch: 32, eval/test_batch: 64, max_token_len: 128（与教师模型保持一致）
训练代码：这里

3. NLI 训练

语料库：
- 训练集（967,852）：kornli(550,152)、kluenli(24,998)、glue-mnli(392,702)
- 评估集（3,519）：korsts(1,500)、kluests(519)、gluests(1,500)
超参数：lr: 3e-5, eps: 1e-8, warm_step=10%, epochs: 3, train/eval_batch: 64, max_token_len: 128
训练代码：这里

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': True}) with Transformer model: AlbertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)