U

USER2 Base

由deepvk開發
USER2是新一代俄語通用句子編碼器,支持長達8,192個token的上下文句子表徵,基於RuModernBERT-base構建,針對檢索和語義任務優化
下載量 1,101
發布時間 : 2/25/2025

模型概述

專為俄語設計的通用句子編碼器,支持長上下文表徵和套娃表徵學習(MRL)技術,適用於檢索和各類語義任務

模型特點

長上下文支持
支持處理長達8,192個token的文本,適合長文檔檢索和分析
套娃表徵學習(MRL)
支持維度裁剪技術,可在質量損失最小的情況下縮減嵌入維度
多任務前綴優化
採用任務特定前綴設計,針對不同場景(分類/聚類/檢索)優化表徵
高效參數設計
1.49億參數的基礎版在性能與效率間取得良好平衡

模型能力

文本嵌入生成
語義相似度計算
文檔檢索
文本聚類
多標籤分類
重排序任務

使用案例

信息檢索
長文檔檢索
在長文檔集合中查找相關信息
在MLDR-rus測試中nDCG@10達54.17
問答系統
匹配問題與候選答案
文本分析
文本聚類
將相似文檔分組
MTEB-rus聚類任務得分59.22
語義相似度計算
衡量文本間語義關係
MTEB-rus相似度任務得分74.28
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase