Snowflake Arctic Embed M v2.0開源多語言句子嵌入模型 - 免費部署支持超50種語言相似比對

首頁

Snowflake Arctic Embed M V2.0 Cpu

由cnmoro開發

Snowflake Arctic Embed M v2.0 是一個多語言句子嵌入模型，專注於句子相似度任務，支持超過50種語言。

文本嵌入

Transformers

支持多種語言開源協議:Apache-2.0 #多語言句子嵌入 #高維語義匹配 #跨語言檢索

下載量 502

發布時間 : 1/22/2025

模型概述

該模型是一個句子轉換器，用於特徵提取和句子相似度計算，在MTEB基準測試中表現良好。

模型特點

多語言支持

支持超過50種語言的句子嵌入計算

高性能

在MTEB基準測試中表現優異

句子相似度

專門優化用於計算句子之間的相似度

模型能力

句子嵌入

特徵提取

句子相似度計算

多語言處理

使用案例

文本檢索

語義搜索

基於語義而非關鍵詞的文檔檢索

分類任務

情感分析

基於句子嵌入的情感分類

在亞馬遜評論分類任務中達到33.766%準確率

問答系統

問答匹配

計算問題和候選答案之間的相似度

🚀 Snowflake Arctic Embed M V2.0 CPU 模型

Snowflake Arctic Embed M V2.0 CPU 模型是 Snowflake/snowflake-arctic-embed-m-v2.0 的修改版本，移除了 xformers 依賴，從而可以在 CPU 上運行。該模型可用於句子相似度計算等任務，支持多種語言。

🚀 快速開始

以下是使用該模型的簡單示例代碼：

from sentence_transformers import SentenceTransformer
import torch

device = torch.device("cpu")
model = SentenceTransformer("cnmoro/snowflake-arctic-embed-m-v2.0-cpu", device=device, trust_remote_code=True)

✨ 主要特性

多語言支持：支持多種語言，包括南非荷蘭語（af）、阿拉伯語（ar）、阿塞拜疆語（az）等眾多語言。
多任務表現：在多個數據集上進行了測試，涵蓋分類、檢索、聚類、重排序等多種任務，如在 MTEB 相關數據集上有具體的評估指標。

📦 安裝指南

由於代碼中使用了 sentence-transformers 庫，你可以使用以下命令進行安裝：

pip install sentence-transformers

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer
import torch

device = torch.device("cpu")
model = SentenceTransformer("cnmoro/snowflake-arctic-embed-m-v2.0-cpu", device=device, trust_remote_code=True)

# 示例句子
sentences = ["This is an example sentence", "Each sentence is converted"]

# 生成句子嵌入
embeddings = model.encode(sentences)
print(embeddings)

📚 詳細文檔

模型指標

該模型在多個數據集上進行了評估，以下是部分數據集的主要指標：

數據集名稱	任務類型	主要指標值
MTEB AmazonCounterfactualClassification (en-ext)	分類	準確率：66.6867
MTEB ArguAna (default)	檢索	主得分：58.011
MTEB ArxivClusteringP2P (default)	聚類	V 測度：44.6844
...	...	...

支持的語言

該模型支持以下語言： af, ar, az, be, bg, bn, ca, ceb, cs, cy, da, de, el, en, es, et, eu, fa, fi, fr, gl, gu, he, hi, hr, ht, hu, hy, id, is, it, ja, jv, ka, kk, km, kn, ko, ky, lo, lt, lv, mk, ml, mn, mr, ms, my, ne, nl, pa, pl, pt, qu, ro, ru, si, sk, sl, so, sq, sr, sv, sw, ta, te, th, tl, tr, uk, ur, vi, yo, zh