U

USER2 Small

deepvkによって開発
USER2は次世代ロシア語汎用文エンコーダーで、最大8,192トークンの長文コンテキスト表現をサポートするように設計されています。
ダウンロード数 1,409
リリース時間 : 2/19/2025

モデル概要

RuModernBERTエンコーダーを基盤に構築され、検索と意味タスク向けに微調整されています。マトリョーシュカ表現学習(MRL)技術をサポートし、品質劣化を最小限に抑えながら埋め込み次元を削減できます。

モデル特徴

長文コンテキストサポート
最大8,192トークンの長文コンテキスト表現をサポート
マトリョーシュカ表現学習(MRL)
表現品質の劣化を最小限に抑えながら埋め込み次元を削減可能、[32, 64, 128, 256, 384]の複数次元をサポート
高効率小型モデル
わずか3400万パラメータの小型モデルで、性能を維持しながら計算リソース要件を低減
タスクプレフィックス最適化
classification/clustering/search_queryなどのタスクプレフィックスを追加することで、様々なシナリオでのパフォーマンスを最適化可能

モデル能力

テキスト埋め込み生成
文類似度計算
意味検索
テキストクラスタリング
分類タスク
並べ替えタスク

使用事例

情報検索
ドキュメント検索
長文ドキュメント検索システムに使用可能、8192トークンの長文コンテキスト理解をサポート
MLDR-rusテストでnDCG@10が51.69を達成
意味分析
文類似度計算
2つの文またはテキスト断片間の意味的類似度を計算
MTEB-rus意味類似度タスクで72.25点を獲得
テキスト分類
マルチラベル分類
マルチラベル分類が必要なシナリオに適応
MTEB-rusマルチラベル分類タスクで33.56点を獲得
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase