🚀 st-polish-kartonberta-base-alpha-v1
這個句子轉換器模型旨在將文本內容轉換為768維浮點向量空間,以實現有效的文本表示。它擅長處理句子或文檔相似度相關任務。
🚀 快速開始
使用Sentence-Transformers
你可以使用 sentence-transformers 庫來使用該模型:
pip install -U sentence-transformers
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('OrlikB/st-polish-kartonberta-base-alpha-v1')
text_1 = 'Jestem wielkim fanem opakowań tekturowych'
text_2 = 'Bardzo podobają mi się kartony'
embeddings_1 = model.encode(text_1, normalize_embeddings=True)
embeddings_2 = model.encode(text_2, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)
使用HuggingFace Transformers
from transformers import AutoTokenizer, AutoModel
import torch
import numpy as np
def encode_text(text):
encoded_input = tokenizer(text, padding=True, truncation=True, return_tensors='pt', max_length=512)
with torch.no_grad():
model_output = model(**encoded_input)
sentence_embeddings = model_output[0][:, 0]
sentence_embeddings = torch.nn.functional.normalize(sentence_embeddings, p=2, dim=1)
return sentence_embeddings.squeeze().numpy()
cosine_similarity = lambda a, b: np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))
tokenizer = AutoTokenizer.from_pretrained('OrlikB/st-polish-kartonberta-base-alpha-v1')
model = AutoModel.from_pretrained('OrlikB/st-polish-kartonberta-base-alpha-v1')
model.eval()
text_1 = 'Jestem wielkim fanem opakowań tekturowych'
text_2 = 'Bardzo podobają mi się kartony'
embeddings_1 = encode_text(text_1)
embeddings_2 = encode_text(text_2)
print(cosine_similarity(embeddings_1, embeddings_2))
⚠️ 重要提示
你可以使用 encode_text
函數進行演示。為獲得最佳體驗,建議批量處理文本。
✨ 主要特性
- 能將文本轉換為768維浮點向量空間,實現有效文本表示。
- 擅長句子或文檔相似度相關任務。
📚 詳細文檔
模型描述
屬性 |
詳情 |
開發者 |
Bartłomiej Orlik, https://www.linkedin.com/in/bartłomiej-orlik/ |
模型類型 |
RoBERTa Sentence Transformer |
語言 |
波蘭語 |
許可證 |
LGPL-3.0 |
訓練基礎模型 |
sdadas/polish-roberta-base-v2: https://huggingface.co/sdadas/polish-roberta-base-v2 |
評估
排名 |
模型 |
模型大小 (GB) |
嵌入維度 |
序列長度 |
平均得分 (26個數據集) |
分類平均得分 (7個數據集) |
聚類平均得分 (1個數據集) |
成對分類平均得分 (4個數據集) |
檢索平均得分 (11個數據集) |
STS平均得分 (3個數據集) |
1 |
multilingual-e5-large |
2.24 |
1024 |
514 |
58.25 |
60.51 |
24.06 |
84.58 |
47.82 |
67.52 |
2 |
st-polish-kartonberta-base-alpha-v1 |
0.5 |
768 |
514 |
56.92 |
60.44 |
32.85 |
87.92 |
42.19 |
69.47 |
3 |
multilingual-e5-base |
1.11 |
768 |
514 |
54.18 |
57.01 |
18.62 |
82.08 |
42.5 |
65.07 |
4 |
multilingual-e5-small |
0.47 |
384 |
512 |
53.15 |
54.35 |
19.64 |
81.67 |
41.52 |
66.08 |
5 |
st-polish-paraphrase-from-mpnet |
0.5 |
768 |
514 |
53.06 |
57.49 |
25.09 |
87.04 |
36.53 |
67.39 |
6 |
st-polish-paraphrase-from-distilroberta |
0.5 |
768 |
514 |
52.65 |
58.55 |
31.11 |
87 |
33.96 |
68.78 |
🔧 技術細節
該模型目前處於Alpha版本發佈階段。由於GPU資源有限,有很多潛在的改進方法可以提升其性能,例如調整訓練超參數或延長訓練時間(目前僅訓練了一個epoch)。
📄 許可證
該模型使用LGPL-3.0許可證。