🚀 Snowflake Arctic Embed M V2.0 CPU 模型
Snowflake Arctic Embed M V2.0 CPU 模型是 Snowflake/snowflake-arctic-embed-m-v2.0 的修改版本,移除了 xformers 依赖,从而可以在 CPU 上运行。该模型可用于句子相似度计算等任务,支持多种语言。
🚀 快速开始
以下是使用该模型的简单示例代码:
from sentence_transformers import SentenceTransformer
import torch
device = torch.device("cpu")
model = SentenceTransformer("cnmoro/snowflake-arctic-embed-m-v2.0-cpu", device=device, trust_remote_code=True)
✨ 主要特性
- 多语言支持:支持多种语言,包括南非荷兰语(af)、阿拉伯语(ar)、阿塞拜疆语(az)等众多语言。
- 多任务表现:在多个数据集上进行了测试,涵盖分类、检索、聚类、重排序等多种任务,如在 MTEB 相关数据集上有具体的评估指标。
📦 安装指南
由于代码中使用了 sentence-transformers
库,你可以使用以下命令进行安装:
pip install sentence-transformers
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
import torch
device = torch.device("cpu")
model = SentenceTransformer("cnmoro/snowflake-arctic-embed-m-v2.0-cpu", device=device, trust_remote_code=True)
sentences = ["This is an example sentence", "Each sentence is converted"]
embeddings = model.encode(sentences)
print(embeddings)
📚 详细文档
模型指标
该模型在多个数据集上进行了评估,以下是部分数据集的主要指标:
数据集名称 |
任务类型 |
主要指标值 |
MTEB AmazonCounterfactualClassification (en-ext) |
分类 |
准确率:66.6867 |
MTEB ArguAna (default) |
检索 |
主得分:58.011 |
MTEB ArxivClusteringP2P (default) |
聚类 |
V 测度:44.6844 |
... |
... |
... |
支持的语言
该模型支持以下语言:
af, ar, az, be, bg, bn, ca, ceb, cs, cy, da, de, el, en, es, et, eu, fa, fi, fr, gl, gu, he, hi, hr, ht, hu, hy, id, is, it, ja, jv, ka, kk, km, kn, ko, ky, lo, lt, lv, mk, ml, mn, mr, ms, my, ne, nl, pa, pl, pt, qu, ro, ru, si, sk, sl, so, sq, sr, sv, sw, ta, te, th, tl, tr, uk, ur, vi, yo, zh
🔧 技术细节
该模型基于 sentence-transformers
库构建,通过移除 xformers 依赖,使其能够在 CPU 上运行。在多个 MTEB 数据集上进行了训练和评估,以确保在不同任务和语言上的性能。
📄 许可证
该模型使用 Apache 2.0 许可证。