🚀 Snowflake Arctic Embed M V2.0 CPU 模型
Snowflake Arctic Embed M V2.0 CPU 模型是 Snowflake/snowflake-arctic-embed-m-v2.0 的修改版本,移除了 xformers 依賴,從而可以在 CPU 上運行。該模型可用於句子相似度計算等任務,支持多種語言。
🚀 快速開始
以下是使用該模型的簡單示例代碼:
from sentence_transformers import SentenceTransformer
import torch
device = torch.device("cpu")
model = SentenceTransformer("cnmoro/snowflake-arctic-embed-m-v2.0-cpu", device=device, trust_remote_code=True)
✨ 主要特性
- 多語言支持:支持多種語言,包括南非荷蘭語(af)、阿拉伯語(ar)、阿塞拜疆語(az)等眾多語言。
- 多任務表現:在多個數據集上進行了測試,涵蓋分類、檢索、聚類、重排序等多種任務,如在 MTEB 相關數據集上有具體的評估指標。
📦 安裝指南
由於代碼中使用了 sentence-transformers
庫,你可以使用以下命令進行安裝:
pip install sentence-transformers
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
import torch
device = torch.device("cpu")
model = SentenceTransformer("cnmoro/snowflake-arctic-embed-m-v2.0-cpu", device=device, trust_remote_code=True)
sentences = ["This is an example sentence", "Each sentence is converted"]
embeddings = model.encode(sentences)
print(embeddings)
📚 詳細文檔
模型指標
該模型在多個數據集上進行了評估,以下是部分數據集的主要指標:
數據集名稱 |
任務類型 |
主要指標值 |
MTEB AmazonCounterfactualClassification (en-ext) |
分類 |
準確率:66.6867 |
MTEB ArguAna (default) |
檢索 |
主得分:58.011 |
MTEB ArxivClusteringP2P (default) |
聚類 |
V 測度:44.6844 |
... |
... |
... |
支持的語言
該模型支持以下語言:
af, ar, az, be, bg, bn, ca, ceb, cs, cy, da, de, el, en, es, et, eu, fa, fi, fr, gl, gu, he, hi, hr, ht, hu, hy, id, is, it, ja, jv, ka, kk, km, kn, ko, ky, lo, lt, lv, mk, ml, mn, mr, ms, my, ne, nl, pa, pl, pt, qu, ro, ru, si, sk, sl, so, sq, sr, sv, sw, ta, te, th, tl, tr, uk, ur, vi, yo, zh
🔧 技術細節
該模型基於 sentence-transformers
庫構建,通過移除 xformers 依賴,使其能夠在 CPU 上運行。在多個 MTEB 數據集上進行了訓練和評估,以確保在不同任務和語言上的性能。
📄 許可證
該模型使用 Apache 2.0 許可證。