U

USER2 Small

由deepvk開發
USER2是新一代俄語通用句子編碼器,專為支持長達8,192個token的長上下文句子表徵而設計。
下載量 1,409
發布時間 : 2/19/2025

模型概述

基於RuModernBERT編碼器構建,針對檢索和語義任務進行微調,支持套娃表徵學習(MRL)技術,可縮減嵌入維度而最小化質量損失。

模型特點

長上下文支持
支持長達8,192個token的長上下文句子表徵
套娃表徵學習(MRL)
可在表徵質量損失最小的情況下縮減嵌入維度,支持[32, 64, 128, 256, 384]多種維度
高效小模型
僅3400萬參數的小型模型,在保持性能的同時減少計算資源需求
任務前綴優化
支持通過添加任務前綴(如classification/clustering/search_query等)優化不同場景下的表現

模型能力

文本嵌入生成
句子相似度計算
語義檢索
文本聚類
分類任務
重排序任務

使用案例

信息檢索
文檔檢索
用於長文檔檢索系統,支持8192token的長上下文理解
在MLDR-rus測試中nDCG@10達到51.69
語義分析
句子相似度計算
計算兩個句子或文本片段之間的語義相似度
在MTEB-rus語義相似度任務中得分72.25
文本分類
多標籤分類
適用於需要多標籤分類的場景
在MTEB-rus多標籤分類任務中得分33.56
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase