smaller-LaBSE開源多語言句子編碼器 - 免費支持15種語言嵌入及相似度計算

首頁

Smaller LaBSE

由setu4993開發

基於BERT架構的多語言句子編碼器，支持15種語言的句子嵌入和相似度計算，是原始LaBSE模型的蒸餾版本。

文本嵌入支持多種語言開源協議:Apache-2.0 #多語言句子嵌入 #跨語言相似度計算 #BERT蒸餾模型

下載量 1,463

發布時間 : 3/2/2022

模型概述

該模型通過知識蒸餾技術從原始LaBSE模型壓縮而來，保留了核心的多語言句子嵌入能力，可用於跨語言句子相似度計算等任務。

模型特點

多語言支持

支持15種語言的句子嵌入計算，可實現跨語言句子相似度比較

輕量級設計

通過知識蒸餾技術減小模型體積，同時保留核心功能

高質量嵌入

生成的句子嵌入向量能有效捕捉語義信息，適用於相似度計算

模型能力

多語言句子嵌入

跨語言句子相似度計算

語義相似度分析

使用案例

信息檢索

跨語言文檔檢索

在不同語言的文檔中查找語義相似的句子或段落

機器翻譯

翻譯質量評估

通過比較原文和譯文的嵌入相似度評估翻譯質量

🚀 LaBSE

LaBSE（Smaller Language-agnostic BERT Sentence Encoder）是一款用於句子相似度計算的多語言模型，支持包括阿拉伯語、德語、英語等在內的15種語言。它基於BERT架構，從原始的LaBSE模型蒸餾而來，可有效進行跨語言句子嵌入和相似度計算。

🚀 快速開始

模型使用

以下是使用該模型的示例代碼：

import torch
from transformers import BertModel, BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained("setu4993/smaller-LaBSE")
model = BertModel.from_pretrained("setu4993/smaller-LaBSE")
model = model.eval()

english_sentences = [
    "dog",
    "Puppies are nice.",
    "I enjoy taking long walks along the beach with my dog.",
]
english_inputs = tokenizer(english_sentences, return_tensors="pt", padding=True)

with torch.no_grad():
    english_outputs = model(**english_inputs)

獲取句子嵌入

要獲取句子嵌入，可以使用池化層輸出：

english_embeddings = english_outputs.pooler_output

其他語言輸出示例

以下是意大利語和日語句子的處理示例：

italian_sentences = [
    "cane",
    "I cuccioli sono carini.",
    "Mi piace fare lunghe passeggiate lungo la spiaggia con il mio cane.",
]
japanese_sentences = ["犬", "子犬はいいです", "私は犬と一緒にビーチを散歩するのが好きです"]
italian_inputs = tokenizer(italian_sentences, return_tensors="pt", padding=True)
japanese_inputs = tokenizer(japanese_sentences, return_tensors="pt", padding=True)

with torch.no_grad():
    italian_outputs = model(**italian_inputs)
    japanese_outputs = model(**japanese_inputs)

italian_embeddings = italian_outputs.pooler_output
japanese_embeddings = japanese_outputs.pooler_output

句子相似度計算

在計算句子相似度之前，建議先進行L2歸一化：

import torch.nn.functional as F

def similarity(embeddings_1, embeddings_2):
    normalized_embeddings_1 = F.normalize(embeddings_1, p=2)
    normalized_embeddings_2 = F.normalize(embeddings_2, p=2)
    return torch.matmul(
        normalized_embeddings_1, normalized_embeddings_2.transpose(0, 1)
    )

print(similarity(english_embeddings, italian_embeddings))
print(similarity(english_embeddings, japanese_embeddings))
print(similarity(italian_embeddings, japanese_embeddings))

✨ 主要特性

多語言支持：支持15種語言，包括阿拉伯語、德語、英語、西班牙語、法語等。
基於BERT架構：利用BERT的強大能力進行句子編碼。
模型蒸餾：從原始的LaBSE模型蒸餾而來，減小了模型規模。

📦 模型信息

屬性	詳情
模型類型	基於BERT的句子編碼器
訓練數據	CommonCrawl、Wikipedia
許可證	Apache-2.0
模型鏈接	HuggingFace's model hub
原始模型鏈接	TensorFlow Hub
蒸餾源鏈接	GitHub
TF轉PyTorch代碼鏈接	GitHub

📚 詳細文檔

關於數據、訓練、評估和性能指標的詳細信息，請參考原始論文。

BibTeX引用

@misc{feng2020languageagnostic,
      title={Language-agnostic BERT Sentence Embedding},
      author={Fangxiaoyu Feng and Yinfei Yang and Daniel Cer and Naveen Arivazhagan and Wei Wang},
      year={2020},
      eprint={2007.01852},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}