TAACO_STS開源韓語句子相似度模型 - 免費測量句子語義連貫性

首頁

TAACO STS

由KDHyun08開發

基於Sentence-transformers框架訓練的韓語句子相似度模型，用於測量句子間語義連貫性

文本嵌入

Transformers

韓語#韓語句子相似度 #語義連貫性測量 #KLUE-STS訓練

下載量 24

發布時間 : 7/25/2022

模型概述

該模型是K-TAACO（韓語句子連貫性測量工具）的組成部分，專門設計用於計算韓語句子之間的語義相似度。通過KLUE的STS數據集訓練，適用於韓語自然語言處理任務。

模型特點

韓語優化

專門針對韓語句子相似度計算優化，適合韓語語義分析任務

語義連貫性測量

作為K-TAACO工具的核心組件，能夠有效測量句子間的語義連貫性

預訓練+微調

基於預訓練模型進行微調，在韓語STS任務上表現良好

模型能力

句子嵌入生成

語義相似度計算

韓語文本處理

使用案例

文本分析

句子連貫性評估

評估文本中句子之間的語義連貫性

可量化句子間相似度，幫助判斷文本流暢度

語義搜索

基於語義而非關鍵詞的文本檢索

可找到語義相似但用詞不同的相關句子

教育技術

作文評分輔助

分析學生作文中句子間的邏輯連貫性

為教師提供客觀的連貫性評分參考

🚀 TAACO_Similarity

本模型基於 Sentence-transformers，並通過 KLUE 的 STS（句子文本相似度）數據集進行訓練。作者為了測量其正在開發的韓語句子銜接性測量工具 K-TAACO（暫定名）中的指標之一——句子間語義銜接性，製作了本模型。此外，還計劃獲取包括 모두의 말뭉치的句子相似度數據等多種數據進行額外訓練。

✨ 主要特性

基於 Sentence-transformers 構建，可有效測量句子間語義銜接性。
利用 KLUE 的 STS 數據集訓練，具有較好的泛化能力。
後續計劃使用更多數據進行額外訓練，進一步提升性能。

📦 安裝指南

要使用本模型，需要安裝 Sentence-transformers。

pip install -U sentence-transformers

💻 使用示例

基礎用法

使用本模型時，請參考以下代碼：

from sentence_transformers import SentenceTransformer, models
sentences = ["This is an example sentence", "Each sentence is converted"]

embedding_model = models.Transformer(
    model_name_or_path="KDHyun08/TAACO_STS", 
    max_seq_length=256,
    do_lower_case=True
)

pooling_model = models.Pooling(
    embedding_model.get_word_embedding_dimension(),
    pooling_mode_mean_tokens=True,
    pooling_mode_cls_token=False,
    pooling_mode_max_tokens=False,
)
model = SentenceTransformer(modules=[embedding_model, pooling_model])

embeddings = model.encode(sentences)
print(embeddings)

高級用法

安裝 Sentence-transformers 後，可以按照以下內容比較句子間的相似度。query 變量是作為比較基準的句子（源句子），要進行比較的句子可以以列表形式放在 docs 中。

from sentence_transformers import SentenceTransformer, models

embedding_model = models.Transformer(
    model_name_or_path="KDHyun08/TAACO_STS", 
    max_seq_length=256,
    do_lower_case=True
)

pooling_model = models.Pooling(
    embedding_model.get_word_embedding_dimension(),
    pooling_mode_mean_tokens=True,
    pooling_mode_cls_token=False,
    pooling_mode_max_tokens=False,
)
model = SentenceTransformer(modules=[embedding_model, pooling_model])

docs = ['어제는 아내의 생일이었다', '생일을 맞이하여 아침을 준비하겠다고 오전 8시 30분부터 음식을 준비하였다. 주된 메뉴는 스테이크와 낙지볶음, 미역국, 잡채, 소야 등이었다', '스테이크는 자주 하는 음식이어서 자신이 준비하려고 했다', '앞뒤도 1분씩 3번 뒤집고 래스팅을 잘 하면 육즙이 가득한 스테이크가 준비되다', '아내도 그런 스테이크를 좋아한다. 그런데 상상도 못한 일이 벌이지고 말았다', '보통 시즈닝이 되지 않은 원육을 사서 스테이크를 했는데, 이번에는 시즈닝이 된 부챗살을 구입해서 했다', '그런데 케이스 안에 방부제가 들어있는 것을 인지하지 못하고 방부제와 동시에 프라이팬에 올려놓을 것이다', '그것도 인지 못한 체... 앞면을 센 불에 1분을 굽고 뒤집는 순간 방부제가 함께 구어진 것을 알았다', '아내의 생일이라 맛있게 구워보고 싶었는데 어처구니없는 상황이 발생한 것이다', '방부제가 센 불에 녹아서 그런지 물처럼 흘러내렸다', ' 고민을 했다. 방부제가 묻은 부문만 제거하고 다시 구울까 했는데 방부제에 절대 먹지 말라는 문구가 있어서 아깝지만 버리는 방향을 했다', '너무나 안타까웠다', '아침 일찍 아내가 좋아하는 스테이크를 준비하고 그것을 맛있게 먹는 아내의 모습을 보고 싶었는데 전혀 생각지도 못한 상황이 발생해서... 하지만 정신을 추스르고 바로 다른 메뉴로 변경했다', '소야, 소시지 야채볶음..', '아내가 좋아하는지 모르겠지만 냉장고 안에 있는 후랑크소세지를 보니 바로 소야를 해야겠다는 생각이 들었다. 음식은 성공적으로 완성이 되었다', '40번째를 맞이하는 아내의 생일은 성공적으로 준비가 되었다', '맛있게 먹어 준 아내에게도 감사했다', '매년 아내의 생일에 맞이하면 아침마다 생일을 차려야겠다. 오늘도 즐거운 하루가 되었으면 좋겠다', '생일이니까~']
#각 문장의 vector값 encoding
document_embeddings = model.encode(docs)

query = '생일을 맞이하여 아침을 준비하겠다고 오전 8시 30분부터 음식을 준비하였다'
query_embedding = model.encode(query)

top_k = min(10, len(docs))

# 코사인 유사도 계산 후,
cos_scores = util.pytorch_cos_sim(query_embedding, document_embeddings)[0]

# 코사인 유사도 순으로 문장 추출
top_results = torch.topk(cos_scores, k=top_k)

print(f"입력 문장: {query}")
print(f"\n<입력 문장과 유사한 {top_k} 개의 문장>\n")

for i, (score, idx) in enumerate(zip(top_results[0], top_results[1])):
    print(f"{i+1}: {docs[idx]} {'(유사도: {:.4f})'.format(score)}\n")

📚 詳細文檔

評估結果

運行上述使用示例代碼將得到以下結果，數值越接近 1 表示句子越相似。

입력 문장: 생일을 맞이하여 아침을 준비하겠다고 오전 8시 30분부터 음식을 준비하였다

<입력 문장과 유사한 10 개의 문장>

1: 생일을 맞이하여 아침을 준비하겠다고 오전 8시 30분부터 음식을 준비하였다. 주된 메뉴는 스테이크와 낙지볶음, 미역국, 잡채, 소야 등이었다 (유사도: 0.6687)

2: 매년 아내의 생일에 맞이하면 아침마다 생일을 차려야겠다. 오늘도 즐거운 하루가 되었으면 좋겠다 (유사도: 0.6468)

3: 40번째를 맞이하는 아내의 생일은 성공적으로 준비가 되었다 (유사도: 0.4647)

4: 아내의 생일이라 맛있게 구워보고 싶었는데 어처구니없는 상황이 발생한 것이다 (유사도: 0.4469)

5: 생일이니까~ (유사도: 0.4218)

6: 어제는 아내의 생일이었다 (유사도: 0.4192)

7: 아침 일찍 아내가 좋아하는 스테이크를 준비하고 그것을 맛있게 먹는 아내의 모습을 보고 싶었는데 전혀 생각지도 못한 상황이 발생해서... 하지만 정신을 추스르고 바로 다른 메뉴로 변경했다 (유사도: 0.4156)

8: 맛있게 먹어 준 아내에게도 감사했다 (유사도: 0.3093)

9: 아내가 좋아하는지 모르겠지만 냉장고 안에 있는 후랑크소세지를 보니 바로 소야를 해야겠다는 생각이 들었다. 음식은 성공적으로 완성이 되었다 (유사도: 0.2259)

10: 아내도 그런 스테이크를 좋아한다. 그런데 상상도 못한 일이 벌이지고 말았다 (유사도: 0.1967)

數據加載器

torch.utils.data.dataloader.DataLoader，長度為 142，參數如下：

{'batch_size': 32, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

損失函數

sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss

fit() 方法的參數：

{
    "epochs": 4,
    "evaluation_steps": 1000,
    "evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 10000,
    "weight_decay": 0.01
}

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

訓練數據

KLUE-sts-v1.1._train.json
NLI-sts-train.tsv

🔧 技術細節

本模型基於 Sentence-transformers 庫，使用了 Transformer 模塊進行特徵提取，並通過 Pooling 模塊進行池化操作。訓練過程中，使用了 CosineSimilarityLoss 作為損失函數，採用 AdamW 優化器和 WarmupLinear 調度器。通過 KLUE 的 STS 數據集進行訓練，後續還計劃使用更多數據進行額外訓練，以提升模型性能。