D

Deberta V1 Base

Developed by deepvk
DeBERTa-base是一个针对俄语的预训练双向编码器,主要用于处理俄语文本任务。
Downloads 160
Release Time : 2/7/2023

Model Overview

该模型在包含开放社交数据的大型文本语料库上,使用标准的掩码语言模型(MLM)目标进行训练,支持俄语及少量其他语言。

Model Features

大规模训练数据
使用400GB经过过滤和去重的文本数据训练,包括维基百科、书籍、推特评论等多种来源。
高效去重流程
采用MinHash和Jaccard相似度计算进行数据去重,确保训练数据的多样性。
高性能优化
使用AdamW优化器和混合精度训练,在8个A100上训练30天,达到高效训练效果。

Model Capabilities

俄语文本处理
掩码语言模型
文本编码

Use Cases

自然语言处理
俄语文本分类
可用于俄语文本的分类任务,如情感分析、主题分类等。
在Russian Super Glue开发集上表现优异。
文本嵌入
生成俄语文本的嵌入表示,用于下游任务如相似度计算、聚类等。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase