E

E5 All Nli Triplet Matryoshka

由Omartificial-Intelligence-Space開發
這是一個基於intfloat/multilingual-e5-small微調的sentence-transformers模型,用於將句子和段落映射到384維密集向量空間,支持語義文本相似度、語義搜索等任務。
下載量 14
發布時間 : 7/15/2024

模型概述

該模型專門用於處理句子和段落的語義表示,能夠生成高質量的嵌入向量,適用於多種自然語言處理任務。

模型特點

多語言支持
基於multilingual-e5-small模型,支持多種語言的文本處理
高效語義表示
將文本轉換為384維密集向量,捕捉深層語義信息
MatryoshkaLoss訓練
使用MatryoshkaLoss和MultipleNegativesRankingLoss進行訓練,優化不同維度下的表示能力
高性能
在多個評估數據集上表現出色,斯皮爾曼餘弦相似度最高達0.7972

模型能力

計算句子相似度
語義搜索
文本特徵提取
文本分類
文本聚類
複述挖掘

使用案例

信息檢索
文檔檢索
根據查詢語義快速檢索相關文檔
在MTEB MIRACLRetrievalHardNegatives (ar)數據集上得分為33.441
問答系統
匹配用戶問題與知識庫中的答案
在MTEB MLQARetrieval (ara-ara)數據集上得分為64.488
文本分析
語義相似度計算
比較兩個句子或段落的語義相似程度
在sts-test-384數據集上斯皮爾曼餘弦相似度為0.7972
文本聚類
將語義相似的文本自動分組
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase