st-polish-kartonberta-base-alpha-v1開源模型 - 免費實現波蘭語句子相似度計算與特徵提取

首頁

St Polish Kartonberta Base Alpha V1

由OrlikB開發

這是一個基於KartonBERTa架構的波蘭語句子轉換器模型，主要用於句子相似度計算和特徵提取任務。

文本嵌入

Transformers

其他#波蘭語句子相似度 #文本特徵提取 #多任務評估

下載量 3,494

發布時間 : 11/12/2023

模型概述

該模型專注于波蘭語文本處理，能夠將句子轉換為高維向量表示，用於計算句子相似度、聚類和分類等任務。

模型特點

波蘭語優化

專門針對波蘭語文本進行優化，提供更好的語言理解能力

句子相似度計算

能夠準確計算波蘭語句子之間的語義相似度

多任務支持

支持聚類、分類、檢索等多種自然語言處理任務

模型能力

句子特徵提取

句子相似度計算

文本聚類

文本分類

信息檢索

使用案例

文本分析

評論分類

對波蘭語產品評論進行情感分類

在AllegroReviews數據集上達到40.19%準確率

語義相似度判斷

判斷兩個波蘭語句子是否表達相同含義

在CDSC-E數據集上達到89.2%的準確率

信息檢索

文檔檢索

根據查詢檢索相關波蘭語文檔

在DBPedia-PL數據集上達到54.54%的MRR@100

🚀 st-polish-kartonberta-base-alpha-v1

這個句子轉換器模型旨在將文本內容轉換為768維浮點向量空間，以實現有效的文本表示。它擅長處理句子或文檔相似度相關任務。

🚀 快速開始

使用Sentence-Transformers

你可以使用 sentence-transformers 庫來使用該模型：

pip install -U sentence-transformers

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('OrlikB/st-polish-kartonberta-base-alpha-v1')

text_1 = 'Jestem wielkim fanem opakowań tekturowych'
text_2 = 'Bardzo podobają mi się kartony'

embeddings_1 = model.encode(text_1, normalize_embeddings=True)
embeddings_2 = model.encode(text_2, normalize_embeddings=True)

similarity = embeddings_1 @ embeddings_2.T
print(similarity)

使用HuggingFace Transformers

from transformers import AutoTokenizer, AutoModel
import torch
import numpy as np

def encode_text(text):
    encoded_input = tokenizer(text, padding=True, truncation=True, return_tensors='pt', max_length=512)
    with torch.no_grad():
        model_output = model(**encoded_input)
        sentence_embeddings = model_output[0][:, 0]
        sentence_embeddings = torch.nn.functional.normalize(sentence_embeddings, p=2, dim=1)
    return  sentence_embeddings.squeeze().numpy()

cosine_similarity = lambda a, b: np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))


tokenizer = AutoTokenizer.from_pretrained('OrlikB/st-polish-kartonberta-base-alpha-v1')
model = AutoModel.from_pretrained('OrlikB/st-polish-kartonberta-base-alpha-v1')
model.eval()

text_1 = 'Jestem wielkim fanem opakowań tekturowych'
text_2 = 'Bardzo podobają mi się kartony'

embeddings_1 = encode_text(text_1)
embeddings_2 = encode_text(text_2)

print(cosine_similarity(embeddings_1, embeddings_2))

⚠️ 重要提示

你可以使用 encode_text 函數進行演示。為獲得最佳體驗，建議批量處理文本。

✨ 主要特性

能將文本轉換為768維浮點向量空間，實現有效文本表示。
擅長句子或文檔相似度相關任務。

📚 詳細文檔

模型描述

屬性	詳情
開發者	Bartłomiej Orlik, https://www.linkedin.com/in/bartłomiej-orlik/
模型類型	RoBERTa Sentence Transformer
語言	波蘭語
許可證	LGPL-3.0
訓練基礎模型	sdadas/polish-roberta-base-v2: https://huggingface.co/sdadas/polish-roberta-base-v2

評估

波蘭語MTEB

排名	模型	模型大小 (GB)	嵌入維度	序列長度	平均得分 (26個數據集)	分類平均得分 (7個數據集)	聚類平均得分 (1個數據集)	成對分類平均得分 (4個數據集)	檢索平均得分 (11個數據集)	STS平均得分 (3個數據集)
1	multilingual-e5-large	2.24	1024	514	58.25	60.51	24.06	84.58	47.82	67.52
2	st-polish-kartonberta-base-alpha-v1	0.5	768	514	56.92	60.44	32.85	87.92	42.19	69.47
3	multilingual-e5-base	1.11	768	514	54.18	57.01	18.62	82.08	42.5	65.07
4	multilingual-e5-small	0.47	384	512	53.15	54.35	19.64	81.67	41.52	66.08
5	st-polish-paraphrase-from-mpnet	0.5	768	514	53.06	57.49	25.09	87.04	36.53	67.39
6	st-polish-paraphrase-from-distilroberta	0.5	768	514	52.65	58.55	31.11	87	33.96	68.78