roberta-ko-small-tsdae开源韩语模型 - 免费部署助力句子聚类和语义搜索

首页

Roberta Ko Small Tsdae

由 smartmind 开发

这是一个基于sentence-transformers的韩语小型RoBERTa模型，能够将句子和段落映射到256维稠密向量空间，适用于聚类或语义搜索等任务。

文本嵌入

Transformers

韩语开源协议:MIT #韩语句向量 #小型RoBERTa #无监督训练

下载量 39

发布时间 : 9/19/2022

模型简介

该模型采用TSDAE预训练方法，架构与lassl/roberta-ko-small相同但使用不同分词器。可直接用于计算句子相似度，也可根据具体任务进行微调。

模型特点

TSDAE预训练

采用TSDAE(Transformer-based Sequential Denoising Auto-Encoder)方法预训练，增强了模型的语义理解能力

256维稠密向量

能将句子和段落映射到256维稠密向量空间，便于后续的相似度计算和聚类分析

韩语优化

专门针对韩语优化的模型，使用韩语特定分词器

轻量级

小型RoBERTa模型，计算资源需求较低

模型能力

句子向量化

语义相似度计算

文本聚类

语义搜索

使用案例

信息检索

相似文档检索

在文档库中查找与查询句子语义相似的文档

文本分析

句子聚类

将语义相似的句子自动分组

问答系统

相似问题匹配

在FAQ系统中匹配与用户问题语义相似的标准问题

🚀 smartmind/roberta-ko-small-tsdae

这是一个 sentence-transformers 模型，它可以将句子和段落映射到一个 256 维的密集向量空间，可用于聚类或语义搜索等任务。该模型是使用 TSDAE 进行预训练的韩语 roberta 小型模型，可直接用于计算句子相似度，也可根据需求进行微调。

模型信息

属性	详情
模型类型	用于句子相似度计算的韩语 roberta 小型预训练模型
训练方法	使用 TSDAE 进行预训练
许可证	MIT

🚀 快速开始

安装依赖

使用该模型前，你需要安装相关依赖。如果你使用 sentence-transformers，可以使用以下命令进行安装：

pip install -U sentence-transformers

💻 使用示例

基础用法（Sentence-Transformers）

安装 sentence-transformers 后，你可以直接加载模型并使用：

from sentence_transformers import SentenceTransformer

sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('smartmind/roberta-ko-small-tsdae')
embeddings = model.encode(sentences)
print(embeddings)

高级用法（Sentence-Transformers）

以下是使用 sentence-transformers 计算多个句子相似度的示例：

from sentence_transformers import util

sentences = [
    "대한민국의 수도는 서울입니다.",
    "미국의 수도는 뉴욕이 아닙니다.",
    "대한민국의 수도 요금은 저렴한 편입니다.",
    "서울은 대한민국의 수도입니다.",
    "오늘 서울은 하루종일 맑음",
]

paraphrase = util.paraphrase_mining(model, sentences)
for score, i, j in paraphrase:
    print(f"{sentences[i]}\t\t{sentences[j]}\t\t{score:.4f}")

运行结果如下：

대한민국의 수도는 서울입니다.		서울은 대한민국의 수도입니다.		0.7616
대한민국의 수도는 서울입니다.		미국의 수도는 뉴욕이 아닙니다.		0.7031
대한민국의 수도는 서울입니다.		대한민국의 수도 요금은 저렴한 편입니다.		0.6594
미국의 수도는 뉴욕이 아닙니다.		서울은 대한민국의 수도입니다.		0.6445
대한민국의 수도 요금은 저렴한 편입니다.		서울은 대한민국의 수도입니다.		0.4915
미국의 수도는 뉴욕이 아닙니다.		대한민국의 수도 요금은 저렴한 편입니다.		0.4785
서울은 대한민국의 수도입니다.		오늘 서울은 하루종일 맑음		0.4119
대한민국의 수도는 서울입니다.		오늘 서울은 하루종일 맑음		0.3520
미국의 수도는 뉴욕이 아닙니다.		오늘 서울은 하루종일 맑음		0.2550
대한민국의 수도 요금은 저렴한 편입니다.		오늘 서울은 하루종일 맑음		0.1896

基础用法（HuggingFace Transformers）

如果你没有安装 sentence-transformers，可以使用以下代码：

from transformers import AutoTokenizer, AutoModel
import torch


def cls_pooling(model_output, attention_mask):
    return model_output[0][:,0]


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('smartmind/roberta-ko-small-tsdae')
model = AutoModel.from_pretrained('smartmind/roberta-ko-small-tsdae')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, cls pooling.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 详细文档

评估结果

该模型在 klue STS 数据集上的评估结果如下（未进行微调）：

数据集划分	余弦相似度 - 皮尔逊相关系数	余弦相似度 - 斯皮尔曼相关系数	欧几里得距离 - 皮尔逊相关系数	欧几里得距离 - 斯皮尔曼相关系数	曼哈顿距离 - 皮尔逊相关系数	曼哈顿距离 - 斯皮尔曼相关系数	点积 - 皮尔逊相关系数	点积 - 斯皮尔曼相关系数
训练集	0.8735	0.8676	0.8268	0.8357	0.8248	0.8336	0.8449	0.8383
验证集	0.5409	0.5349	0.4786	0.4657	0.4775	0.4625	0.5284	0.5252

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 508, 'do_lower_case': False}) with Transformer model: RobertaModel
  (1): Pooling({'word_embedding_dimension': 256, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)