D

Deberta V1 Base

由 deepvk 开发
DeBERTa-base是一个针对俄语的预训练双向编码器,主要用于处理俄语文本任务。
下载量 160
发布时间 : 2/7/2023

模型简介

该模型在包含开放社交数据的大型文本语料库上,使用标准的掩码语言模型(MLM)目标进行训练,支持俄语及少量其他语言。

模型特点

大规模训练数据
使用400GB经过过滤和去重的文本数据训练,包括维基百科、书籍、推特评论等多种来源。
高效去重流程
采用MinHash和Jaccard相似度计算进行数据去重,确保训练数据的多样性。
高性能优化
使用AdamW优化器和混合精度训练,在8个A100上训练30天,达到高效训练效果。

模型能力

俄语文本处理
掩码语言模型
文本编码

使用案例

自然语言处理
俄语文本分类
可用于俄语文本的分类任务,如情感分析、主题分类等。
在Russian Super Glue开发集上表现优异。
文本嵌入
生成俄语文本的嵌入表示,用于下游任务如相似度计算、聚类等。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase