sbert-uncased-finnish-paraphrase開源模型 - 免費算芬蘭語句子相似度、做特徵提取

首頁

Sbert Uncased Finnish Paraphrase

由TurkuNLP開發

基於FinBERT訓練的芬蘭語句子BERT模型，用於句子相似度計算和特徵提取

文本嵌入

Transformers

其他#芬蘭語句義匹配 #無大小寫敏感 #句子嵌入生成

下載量 895

發布時間 : 3/2/2022

模型概述

這是一個基於FinBERT訓練的句子轉換器模型，專門用於芬蘭語的句子相似度計算和特徵提取。模型通過均值池化處理句子嵌入，適用於釋義識別等任務。

模型特點

無大小寫區分

模型對大小寫不敏感，適合處理不同大小寫形式的芬蘭語文本

高質量芬蘭語訓練

基於芬蘭語釋義語料庫和自動收集的釋義候選句訓練(50萬正例，500萬負例)

高效句子嵌入

使用均值池化方法生成高質量的句子級嵌入表示

模型能力

句子特徵提取

句子相似度計算

語義相似度比較

芬蘭語文本處理

使用案例

文本相似度

釋義識別

識別兩個芬蘭語句子是否為釋義關係

在芬蘭語釋義語料庫上表現良好

語義搜索

從大規模文本中檢索語義相似的句子

可用於構建400萬句子的語義檢索系統

特徵提取

句子嵌入生成

為下游任務生成句子級別的特徵表示

生成768維的句子嵌入向量

🚀 無大小寫區分的芬蘭語句子BERT模型

本模型是基於FinBERT訓練的芬蘭語句子BERT模型。可以在此處查看一個使用*大小寫區分模型*從4億個句子的數據集中檢索最相似句子的演示。

🚀 快速開始

本模型的使用方法與HuggingFace文檔中描述的一致，可以通過SentenceTransformer或HuggingFace Transformers來使用。

✨ 主要特性

基於FinBERT訓練，適用於芬蘭語句子相似度任務。
可用於從大規模句子數據集中檢索相似句子。

📦 安裝指南

文檔未提及具體安裝步驟，可參考sentence-transformers和transformers庫的官方安裝說明。

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer
sentences = ["Tämä on esimerkkilause.", "Tämä on toinen lause."]

model = SentenceTransformer('TurkuNLP/sbert-uncased-finnish-paraphrase')
embeddings = model.encode(sentences)
print(embeddings)

高級用法

from transformers import AutoTokenizer, AutoModel
import torch


# Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ["Tämä on esimerkkilause.", "Tämä on toinen lause."]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('TurkuNLP/sbert-uncased-finnish-paraphrase')
model = AutoModel.from_pretrained('TurkuNLP/sbert-uncased-finnish-paraphrase')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 詳細文檔

訓練信息

屬性	詳情
模型類型	無大小寫區分的芬蘭語句子BERT模型
訓練庫	sentence-transformers
基礎FinBERT模型	TurkuNLP/bert-base-finnish-uncased-v1
訓練數據	此處提供的數據，包括芬蘭語釋義語料庫和自動收集的釋義候選（50萬個正樣本和500萬個負樣本）
池化方法	均值池化
訓練任務	二分類預測，判斷兩個句子是否為釋義關係。注：標籤3和4被視為釋義，標籤1和2視為非釋義。標籤詳情

模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': True}) with Transformer model: BertModel
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
    )

評估結果

目前正在撰寫詳細的評估結果相關的出版物。

引用與作者

在相關出版物完成之前，請引用此頁面。

參考文獻

J. Kanerva, F. Ginter, LH. Chang, I. Rastas, V. Skantsi, J. Kilpeläinen, HM. Kupari, J. Saarni, M. Sevón, and O. Tarkka. Finnish Paraphrase Corpus. In NoDaLiDa 2021, 2021.
N. Reimers and I. Gurevych. Sentence-BERT: Sentence embeddings using Siamese BERT-networks. In EMNLP-IJCNLP, pages 3982–3992, 2019.
A. Virtanen, J. Kanerva, R. Ilo, J. Luoma, J. Luotolahti, T. Salakoski, F. Ginter, and S. Pyysalo. Multilingual is not enough: BERT for Finnish. arXiv preprint arXiv:1912.07076, 2019.