sbert-cased-finnish-paraphrase開源模型 - 免費實現芬蘭語句子相似度計算與特徵提取

首頁

Sbert Cased Finnish Paraphrase

由TurkuNLP開發

基於FinBERT訓練的芬蘭語句子BERT模型，用於句子相似度計算和特徵提取

文本嵌入

Transformers

其他#芬蘭語句子嵌入 #釋義對檢測 #語義相似度計算

下載量 1,769

發布時間 : 3/2/2022

模型概述

該模型是基於FinBERT訓練的芬蘭語句子BERT模型，專門用於處理芬蘭語句子的相似度計算和特徵提取任務。支持通過SentenceTransformers或HuggingFace Transformers調用。

模型特點

芬蘭語優化

專門針對芬蘭語訓練，使用區分大小寫的FinBERT作為基礎模型

大規模訓練數據

使用包含50萬正例和500萬負例的芬蘭語釋義語料庫進行訓練

高效句子編碼

支持快速將句子轉換為768維的嵌入向量，便於後續相似度計算

模型能力

句子特徵提取

句子相似度計算

芬蘭語文本處理

使用案例

信息檢索

相似句子檢索

從大型文本庫中查找語義相似的句子

可通過演示系統從4億句子數據集中檢索最相似句子

文本分析

釋義識別

識別兩個芬蘭語句子是否為釋義關係

🚀 芬蘭語大小寫敏感句子BERT模型

該模型基於FinBERT訓練，用於處理芬蘭語句子。你可以點擊此處查看一個從包含4億個句子的數據集中檢索最相似句子的演示。

🚀 快速開始

本模型可用於計算芬蘭語句子之間的相似度，在信息檢索、文本匹配等場景有重要應用。

✨ 主要特性

語言：芬蘭語
任務類型：句子相似度計算
標籤：包含sentence-transformers、feature-extraction、sentence-similarity、transformers等標籤
演示示例：可輸入文本 "Minusta täällä on ihana asua!" 進行測試

📦 安裝指南

此部分原文檔未提及具體安裝命令，故跳過。

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer
sentences = ["Tämä on esimerkkilause.", "Tämä on toinen lause."]

model = SentenceTransformer('TurkuNLP/sbert-cased-finnish-paraphrase')
embeddings = model.encode(sentences)
print(embeddings)

高級用法

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ["Tämä on esimerkkilause.", "Tämä on toinen lause."]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('TurkuNLP/sbert-cased-finnish-paraphrase')
model = AutoModel.from_pretrained('TurkuNLP/sbert-cased-finnish-paraphrase')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 詳細文檔

訓練信息

屬性	詳情
庫	sentence-transformers
FinBERT模型	TurkuNLP/bert-base-finnish-cased-v1
訓練數據	此處提供的數據，包括芬蘭語釋義語料庫和自動收集的釋義候選（50萬個正樣本和500萬個負樣本）
池化方法	均值池化
任務類型	二分類預測，判斷兩個句子是否為釋義關係。注意：標籤3和4被視為釋義，標籤1和2視為非釋義。標籤詳情

模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

引用與作者

在相關論文發表之前，請引用此頁面。

參考文獻

J. Kanerva, F. Ginter, LH. Chang, I. Rastas, V. Skantsi, J. Kilpeläinen, HM. Kupari, J. Saarni, M. Sevón, and O. Tarkka. Finnish Paraphrase Corpus. In NoDaLiDa 2021, 2021.
N. Reimers and I. Gurevych. Sentence-BERT: Sentence embeddings using Siamese BERT-networks. In EMNLP-IJCNLP, pages 3982–3992, 2019.
A. Virtanen, J. Kanerva, R. Ilo, J. Luoma, J. Luotolahti, T. Salakoski, F. Ginter, and S. Pyysalo. Multilingual is not enough: BERT for Finnish. arXiv preprint arXiv:1912.07076, 2019.