U

USER2 Base

Developed by deepvk
USER2是新一代俄语通用句子编码器,支持长达8,192个token的上下文句子表征,基于RuModernBERT-base构建,针对检索和语义任务优化
Downloads 1,101
Release Time : 2/25/2025

Model Overview

专为俄语设计的通用句子编码器,支持长上下文表征和套娃表征学习(MRL)技术,适用于检索和各类语义任务

Model Features

长上下文支持
支持处理长达8,192个token的文本,适合长文档检索和分析
套娃表征学习(MRL)
支持维度裁剪技术,可在质量损失最小的情况下缩减嵌入维度
多任务前缀优化
采用任务特定前缀设计,针对不同场景(分类/聚类/检索)优化表征
高效参数设计
1.49亿参数的基础版在性能与效率间取得良好平衡

Model Capabilities

文本嵌入生成
语义相似度计算
文档检索
文本聚类
多标签分类
重排序任务

Use Cases

信息检索
长文档检索
在长文档集合中查找相关信息
在MLDR-rus测试中nDCG@10达54.17
问答系统
匹配问题与候选答案
文本分析
文本聚类
将相似文档分组
MTEB-rus聚类任务得分59.22
语义相似度计算
衡量文本间语义关系
MTEB-rus相似度任务得分74.28
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase