T

Text2vec Base Multilingual

由shibing624開發
一個多語言的句子嵌入模型,支持中文、英文、德文、法文等多種語言,專注於句子相似度計算和特徵提取任務。
下載量 128.13k
發布時間 : 6/22/2023

模型概述

該模型基於Sentence-Transformers框架,通過多語言自然語言推理數據集訓練,能夠將文本轉換為高質量的向量表示,適用於跨語言的語義相似度計算和信息檢索等任務。

模型特點

多語言支持
支持中文、英文、德文、法文等多種語言的文本嵌入
高性能句子相似度計算
在多個基準測試中表現出色,能夠準確計算句子間的語義相似度
預訓練模型
基於大規模多語言數據集預訓練,開箱即用

模型能力

句子相似度計算
文本特徵提取
跨語言語義檢索
文本分類
聚類分析

使用案例

信息檢索
跨語言文檔檢索
使用統一的向量空間實現不同語言文檔的相似度檢索
文本分類
多語言情感分析
基於句子嵌入實現多語言文本的情感分類
在MTEB EmotionClassification上達到43.35%準確率
聚類分析
學術論文聚類
對arXiv論文進行主題聚類
在MTEB ArxivClusteringP2P上達到32.32 v_measure分數
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase