開源sbert-large-cased-pl模型 - 免費生成波蘭語句子嵌入並作相似度比較

首頁

Sbert Large Cased Pl

由Voicelab開發

SHerbert large是基於波蘭語HerBERT改進的SentenceBERT模型，用於生成具有語義意義的句子嵌入，並通過餘弦相似度進行比較。

文本嵌入

PyTorch

其他#波蘭語句子嵌入 #語義相似度計算 #維基百科訓練

下載量 327

發布時間 : 4/13/2022

模型概述

該模型是對預訓練BERT網絡的改進，採用孿生和三重網絡結構生成句子嵌入，主要用於語義文本相似性任務。

模型特點

語義句子嵌入

生成具有語義意義的句子嵌入，可通過餘弦相似度進行比較。

高效預訓練

基於波蘭語HerBERT語言模型，採用字符級字節對編碼進行高效訓練。

高性能

在波蘭語文本相似度任務上達到84.42%的準確率，優於同類模型。

模型能力

句子相似度計算

語義特徵提取

波蘭語文本處理

使用案例

文本相似度分析

維基百科內容相似度分析

比較維基百科條目之間的語義相似度

可準確識別相關主題的條目

信息檢索

相關文檔檢索

根據查詢語句查找語義相似的文檔

提高檢索結果的相關性

🚀 SHerbert large - 波蘭語 SentenceBERT

SentenceBERT 是預訓練 BERT 網絡的一種改進，它使用孿生網絡和三元組網絡結構來導出語義上有意義的句子嵌入，這些嵌入可以使用餘弦相似度進行比較。訓練基於原始論文用於語義文本相似度 (STS) 任務的孿生 BERT 模型，並對訓練數據的使用方式進行了輕微修改。該模型的目標是根據給定文本的語義和主題相似度生成不同的嵌入。

語義文本相似度分析兩個文本片段的相似程度。

在我們的博客文章中瞭解更多關於該模型的製備方法。

基礎訓練模型是波蘭語 HerBERT。HerBERT 是一個基於 BERT 的語言模型。更多詳情，請參考：“HerBERT: Efficiently Pretrained Transformer-based Language Model for Polish”。

✨ 主要特性

基於 SentenceBERT 架構，能生成語義有意義的句子嵌入。
以波蘭語 HerBERT 為基礎訓練模型。
可用於句子相似度分析。

📦 安裝指南

文檔未提及安裝步驟，跳過此章節。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel
from sklearn.metrics import pairwise

sbert = AutoModel.from_pretrained("Voicelab/sbert-large-cased-pl")
tokenizer = AutoTokenizer.from_pretrained("Voicelab/sbert-large-cased-pl")

s0 = "Uczenie maszynowe jest konsekwencją rozwoju idei sztucznej inteligencji i metod jej wdrażania praktycznego."
s1 = "Głębokie uczenie maszynowe jest sktukiem wdrażania praktycznego metod sztucznej inteligencji oraz jej rozwoju."
s2 = "Kasparow zarzucił firmie IBM oszustwo, kiedy odmówiła mu dostępu do historii wcześniejszych gier Deep Blue. "

tokens = tokenizer([s0, s1, s2], 
                    padding=True, 
                    truncation=True,
                    return_tensors='pt')
x = sbert(tokens["input_ids"],
            tokens["attention_mask"]).pooler_output

# similarity between sentences s0 and s1
print(pairwise.cosine_similarity(x[0], x[1])) # Result: 0.8011128

# similarity between sentences s0 and s2
print(pairwise.cosine_similarity(x[0], x[2])) # Result: 0.58822715

📚 詳細文檔

語料庫

該模型僅在維基百科上進行訓練。

分詞器

與原始 HerBERT 實現一樣，訓練數據集使用字符級字節對編碼（CharBPETokenizer）將其分詞為子詞，詞彙表大小為 50k 個標記。分詞器本身使用 tokenizers 庫進行訓練。

我們強烈建議您使用分詞器的快速版本，即 HerbertTokenizerFast。

結果

模型	準確率	來源
SBERT-WikiSec-base (EN)	80.42%	https://arxiv.org/abs/1908.10084
SBERT-WikiSec-large (EN)	80.78%	https://arxiv.org/abs/1908.10084
sbert-base-cased-pl	82.31%	https://huggingface.co/Voicelab/sbert-base-cased-pl
sbert-large-cased-pl	84.42%	https://huggingface.co/Voicelab/sbert-large-cased-pl