KoSimCSE-roberta開源韓語句向量嵌入模型 - 免費用於語義相似度計算

首頁

Kosimcse Roberta

由BM-K開發

基於RoBERTa架構的韓語句向量嵌入模型，通過對比學習優化句子表示，適用於語義相似度計算等任務。

文本嵌入

Transformers

韓語#韓語句向量嵌入 #高精度語義相似度 #多任務學習

下載量 10.35k

發布時間 : 4/5/2022

模型概述

該模型使用RoBERTa架構進行預訓練，通過SimCSE對比學習方法優化句子嵌入表示，能夠生成高質量的韓語句向量，適用於語義搜索、文本相似度計算等自然語言處理任務。

模型特點

高效句子嵌入

通過對比學習優化句子表示，生成高質量的句向量

多任務學習

多任務版本通過結合多種訓練目標進一步提升性能

高性能

在韓語語義相似度任務上達到SOTA水平

模型能力

句子嵌入生成

語義相似度計算

文本檢索

句子聚類

使用案例

信息檢索

語義搜索

使用句向量進行相似文檔檢索

相比傳統關鍵詞搜索能獲得更相關的結果

文本分析

文本相似度計算

計算兩個韓語句子之間的語義相似度

在測試集上達到85.77的平均分

🚀 韓語句子嵌入項目

🍭 這是一個韓語句子嵌入的倉庫。你可以直接下載預訓練模型並進行推理，同時也提供了可供個人訓練模型的環境。

🚀 快速開始

以下是一個簡單的使用示例，展示瞭如何使用預訓練模型計算句子之間的相似度得分：

import torch
from transformers import AutoModel, AutoTokenizer

def cal_score(a, b):
    if len(a.shape) == 1: a = a.unsqueeze(0)
    if len(b.shape) == 1: b = b.unsqueeze(0)

    a_norm = a / a.norm(dim=1)[:, None]
    b_norm = b / b.norm(dim=1)[:, None]
    return torch.mm(a_norm, b_norm.transpose(0, 1)) * 100

model = AutoModel.from_pretrained('BM-K/KoSimCSE-roberta')
tokenizer = AutoTokenizer.from_pretrained('BM-K/KoSimCSE-roberta')

sentences = ['치타가 들판을 가로 질러 먹이를 쫓는다.',
             '치타 한 마리가 먹이 뒤에서 달리고 있다.',
             '원숭이 한 마리가 드럼을 연주한다.']

inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")
embeddings, _ = model(**inputs, return_dict=False)

score01 = cal_score(embeddings[0][0], embeddings[1][0])
score02 = cal_score(embeddings[0][0], embeddings[2][0])

💻 使用示例

基礎用法

import torch
from transformers import AutoModel, AutoTokenizer

def cal_score(a, b):
    if len(a.shape) == 1: a = a.unsqueeze(0)
    if len(b.shape) == 1: b = b.unsqueeze(0)

    a_norm = a / a.norm(dim=1)[:, None]
    b_norm = b / b.norm(dim=1)[:, None]
    return torch.mm(a_norm, b_norm.transpose(0, 1)) * 100

model = AutoModel.from_pretrained('BM-K/KoSimCSE-roberta')
tokenizer = AutoTokenizer.from_pretrained('BM-K/KoSimCSE-roberta')

sentences = ['치타가 들판을 가로 질러 먹이를 쫓는다.',
             '치타 한 마리가 먹이 뒤에서 달리고 있다.',
             '원숭이 한 마리가 드럼을 연주한다.']

inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")
embeddings, _ = model(**inputs, return_dict=False)

score01 = cal_score(embeddings[0][0], embeddings[1][0])
score02 = cal_score(embeddings[0][0], embeddings[2][0])

高級用法

目前文檔未提供高級用法示例，你可以根據基礎用法進行拓展。

📊 性能表現

語義文本相似度測試集結果

模型	平均分	餘弦皮爾遜相關係數	餘弦斯皮爾曼相關係數	歐幾里得皮爾遜相關係數	歐幾里得斯皮爾曼相關係數	曼哈頓皮爾遜相關係數	曼哈頓斯皮爾曼相關係數	點積皮爾遜相關係數	點積斯皮爾曼相關係數
KoSBERT^†_SKT	77.40	78.81	78.47	77.68	77.78	77.71	77.83	75.75	75.22
KoSBERT	80.39	82.13	82.25	80.67	80.75	80.69	80.78	77.96	77.90
KoSRoBERTa	81.64	81.20	82.20	81.79	82.34	81.59	82.20	80.62	81.25

KoSentenceBART	77.14	79.71	78.74	78.42	78.02	78.40	78.00	74.24	72.15
KoSentenceT5	77.83	80.87	79.74	80.24	79.36	80.19	79.27	72.81	70.17

KoSimCSE - BERT^†_SKT	81.32	82.12	82.56	81.84	81.63	81.99	81.74	79.55	79.19
KoSimCSE - BERT	83.37	83.22	83.58	83.24	83.60	83.15	83.54	83.13	83.49
KoSimCSE - RoBERTa	83.65	83.60	83.77	83.54	83.76	83.55	83.77	83.55	83.64

KoSimCSE - BERT - multitask	85.71	85.29	86.02	85.63	86.01	85.57	85.97	85.26	85.93
KoSimCSE - RoBERTa - multitask	85.77	85.08	86.12	85.84	86.12	85.83	86.12	85.03	85.99