🚀 stella-mrl-large-zh-v3.5-1792d模型
本項目開源的 stella-mrl-large-zh-v3.5-1792d 模型,主要用於句子相似度任務。該模型具備可變的向量維度,在多種自然語言處理任務中展現出了良好的性能。
🚀 快速開始
模型簡介
本次開源的 stella-mrl-large-zh-v3.5-1792d 模型,是在 stella-large-zh-v3-1792d 的基礎上,使用 MRL 方法訓練而成,其主要特點是支持可變的向量維度。
使用示例
from sentence_transformers import SentenceTransformer
from sklearn.preprocessing import normalize
model = SentenceTransformer("infgrad/stella-mrl-large-zh-v3.5-1792d")
vectors = model.encode(["text1", "text2"], normalize_embeddings=False)
print(vectors.shape)
n_dims = 768
cut_vecs = normalize(vectors[:, :n_dims])
✨ 主要特性
- 可變向量維度:支持不同的向量維度,可根據實際需求靈活調整,在效果和時空消耗之間進行平衡。
- 中英雙語支持:對中文和英文都有較好的處理能力,適用於多語言場景。
- 泛化性強:在多種自然語言處理任務中表現出色,尤其在檢索和語義匹配任務上,對泛化性和私有通用測試集效果有更多考慮。
📦 安裝依賴
使用該模型需要安裝 sentence-transformers
和 sklearn
庫,可以使用以下命令進行安裝:
pip install sentence-transformers sklearn
📚 詳細文檔
不同向量維度的 CMTEB 得分
stella-mrl-large-zh-v3.5-1792d_1024 代表取前 1024 維。整體趨勢是維度越大效果越好。
Model |
Retrieval |
STS |
PairClassification |
Classification |
Reranking |
Clustering |
CMTEB-Score |
stella-mrl-large-zh-v3.5-1792d_128 |
70.01 |
62.17 |
87.99 |
70.67 |
66.77 |
53.55 |
67.16 |
stella-mrl-large-zh-v3.5-1792d_256 |
72.19 |
62.41 |
88.09 |
71.22 |
68.32 |
53.38 |
68.02 |
stella-mrl-large-zh-v3.5-1792d_384 |
72.77 |
62.43 |
88.26 |
71.34 |
68.31 |
53.87 |
68.25 |
stella-mrl-large-zh-v3.5-1792d_512 |
73.11 |
62.45 |
88.16 |
71.46 |
68.32 |
53.28 |
68.29 |
stella-mrl-large-zh-v3.5-1792d_640 |
73.27 |
62.49 |
88.21 |
71.46 |
68.69 |
53.63 |
68.42 |
stella-mrl-large-zh-v3.5-1792d_768 |
73.38 |
62.5 |
88.19 |
71.49 |
68.64 |
53.77 |
68.47 |
stella-mrl-large-zh-v3.5-1792d_896 |
73.37 |
62.5 |
88.14 |
71.51 |
68.44 |
54.13 |
68.49 |
stella-mrl-large-zh-v3.5-1792d_1024 |
73.43 |
62.51 |
88.16 |
71.52 |
68.59 |
53.43 |
68.44 |
stella-mrl-large-zh-v3.5-1792d_1152 |
73.46 |
62.49 |
88.16 |
71.57 |
68.55 |
53.67 |
68.49 |
stella-mrl-large-zh-v3.5-1792d_1280 |
73.48 |
62.51 |
88.12 |
71.55 |
68.44 |
53.74 |
68.48 |
stella-mrl-large-zh-v3.5-1792d_1408 |
73.48 |
62.51 |
88.14 |
71.58 |
68.46 |
53.69 |
68.48 |
stella-mrl-large-zh-v3.5-1792d_1536 |
73.49 |
62.5 |
88.11 |
71.55 |
68.5 |
54.06 |
68.52 |
stella-mrl-large-zh-v3.5-1792d_1664 |
73.56 |
62.49 |
88.06 |
71.56 |
68.47 |
54.28 |
68.56 |
stella-mrl-large-zh-v3.5-1792d_1792 |
73.51 |
62.48 |
88.09 |
71.56 |
68.45 |
54.39 |
68.56 |
上述表格中 stella-mrl-large-zh-v3.5-1792d_1792 的得分為 68.56 和榜單 68.55 得分不一致,原因和權重類型有關,小差異請忽略不計。
模型性能指標
任務類型 |
數據集 |
評估指標 |
指標值 |
STS |
C-MTEB/AFQMC |
cos_sim_pearson |
54.33822814973567 |
STS |
C-MTEB/AFQMC |
cos_sim_spearman |
58.85457316132848 |
... |
... |
... |
... |
新聞動態
- [2024-04-06] 開源 puff 系列模型,專門針對檢索和語義匹配任務,更多的考慮泛化性和私有通用測試集效果,向量維度可變,中英雙語。
- [2024-02-27] 開源 stella-mrl-large-zh-v3.5-1792d 模型,支持向量可變維度。
- [2024-02-17] 開源 stella v3 系列、dialogue 編碼模型和相關訓練數據。
- [2023-10-19] 開源 stella-base-en-v2 使用簡單,不需要任何前綴文本。
- [2023-10-12] 開源 stella-base-zh-v2 和 stella-large-zh-v2,效果更好且使用簡單,不需要任何前綴文本。
- [2023-09-11] 開源 stella-base-zh 和 stella-large-zh
歡迎去 本人主頁 查看最新模型,並提出您的寶貴意見!
📄 許可證
本項目採用 MIT 許可證。