Snowflake Arctic Embed M v2.0开源多语言句子嵌入模型 - 免费部署支持超50种语言相似比对

首页

Snowflake Arctic Embed M V2.0 Cpu

由 cnmoro 开发

Snowflake Arctic Embed M v2.0 是一个多语言句子嵌入模型，专注于句子相似度任务，支持超过50种语言。

文本嵌入

Transformers

支持多种语言开源协议:Apache-2.0 #多语言句子嵌入 #高维语义匹配 #跨语言检索

下载量 502

发布时间 : 1/22/2025

模型简介

该模型是一个句子转换器，用于特征提取和句子相似度计算，在MTEB基准测试中表现良好。

模型特点

多语言支持

支持超过50种语言的句子嵌入计算

高性能

在MTEB基准测试中表现优异

句子相似度

专门优化用于计算句子之间的相似度

模型能力

句子嵌入

特征提取

句子相似度计算

多语言处理

使用案例

文本检索

语义搜索

基于语义而非关键词的文档检索

分类任务

情感分析

基于句子嵌入的情感分类

在亚马逊评论分类任务中达到33.766%准确率

问答系统

问答匹配

计算问题和候选答案之间的相似度

🚀 Snowflake Arctic Embed M V2.0 CPU 模型

Snowflake Arctic Embed M V2.0 CPU 模型是 Snowflake/snowflake-arctic-embed-m-v2.0 的修改版本，移除了 xformers 依赖，从而可以在 CPU 上运行。该模型可用于句子相似度计算等任务，支持多种语言。

🚀 快速开始

以下是使用该模型的简单示例代码：

from sentence_transformers import SentenceTransformer
import torch

device = torch.device("cpu")
model = SentenceTransformer("cnmoro/snowflake-arctic-embed-m-v2.0-cpu", device=device, trust_remote_code=True)

✨ 主要特性

多语言支持：支持多种语言，包括南非荷兰语（af）、阿拉伯语（ar）、阿塞拜疆语（az）等众多语言。
多任务表现：在多个数据集上进行了测试，涵盖分类、检索、聚类、重排序等多种任务，如在 MTEB 相关数据集上有具体的评估指标。

📦 安装指南

由于代码中使用了 sentence-transformers 库，你可以使用以下命令进行安装：

pip install sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
import torch

device = torch.device("cpu")
model = SentenceTransformer("cnmoro/snowflake-arctic-embed-m-v2.0-cpu", device=device, trust_remote_code=True)

# 示例句子
sentences = ["This is an example sentence", "Each sentence is converted"]

# 生成句子嵌入
embeddings = model.encode(sentences)
print(embeddings)

📚 详细文档

模型指标

该模型在多个数据集上进行了评估，以下是部分数据集的主要指标：

数据集名称	任务类型	主要指标值
MTEB AmazonCounterfactualClassification (en-ext)	分类	准确率：66.6867
MTEB ArguAna (default)	检索	主得分：58.011
MTEB ArxivClusteringP2P (default)	聚类	V 测度：44.6844
...	...	...

支持的语言

该模型支持以下语言： af, ar, az, be, bg, bn, ca, ceb, cs, cy, da, de, el, en, es, et, eu, fa, fi, fr, gl, gu, he, hi, hr, ht, hu, hy, id, is, it, ja, jv, ka, kk, km, kn, ko, ky, lo, lt, lv, mk, ml, mn, mr, ms, my, ne, nl, pa, pl, pt, qu, ro, ru, si, sk, sl, so, sq, sr, sv, sw, ta, te, th, tl, tr, uk, ur, vi, yo, zh