deberta-v1-base开源预训练模型 - 免费处理各类俄语文本任务

Home

Deberta V1 Base

Developed by deepvk

DeBERTa-base是一个针对俄语的预训练双向编码器，主要用于处理俄语文本任务。

大型语言模型

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #俄语NLP #社交文本处理 #高精度编码器

Downloads 160

Release Time : 2/7/2023

Model Overview

该模型在包含开放社交数据的大型文本语料库上，使用标准的掩码语言模型（MLM）目标进行训练，支持俄语及少量其他语言。

Model Features

大规模训练数据

使用400GB经过过滤和去重的文本数据训练，包括维基百科、书籍、推特评论等多种来源。

高效去重流程

采用MinHash和Jaccard相似度计算进行数据去重，确保训练数据的多样性。

高性能优化

使用AdamW优化器和混合精度训练，在8个A100上训练30天，达到高效训练效果。

Model Capabilities

俄语文本处理

掩码语言模型

文本编码

Use Cases

自然语言处理

俄语文本分类

可用于俄语文本的分类任务，如情感分析、主题分类等。

在Russian Super Glue开发集上表现优异。

文本嵌入

生成俄语文本的嵌入表示，用于下游任务如相似度计算、聚类等。

🚀 DeBERTa-base

DeBERTa-base是一个针对俄语的预训练双向编码器。该模型在包含开放社交数据的大型文本语料库上，使用标准的掩码语言模型（MLM）目标进行训练。更多信息请参阅“训练详情”部分。

⚠️ 重要提示

此模型仅包含编码器部分，没有任何预训练的头部。

开发者： deepvk
模型类型： DeBERTa
支持语言： 主要为俄语，少量其他语言
许可证： Apache 2.0

🚀 快速开始

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("deepvk/deberta-v1-base")
model = AutoModel.from_pretrained("deepvk/deberta-v1-base")

text = "Привет, мир!"

inputs = tokenizer(text, return_tensors='pt')
predictions = model(**inputs)

📦 安装指南

文档未提及安装步骤，可参考transformers库的官方安装指南进行安装。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("deepvk/deberta-v1-base")
model = AutoModel.from_pretrained("deepvk/deberta-v1-base")

text = "Привет, мир!"

inputs = tokenizer(text, return_tensors='pt')
predictions = model(**inputs)

📚 详细文档

训练详情

训练数据

总共使用了400GB经过过滤和去重的文本。这些数据是以下几种来源的混合：维基百科、书籍、推特评论、Pikabu、Proza.ru、电影字幕、新闻网站和社交语料库。

去重流程

计算大小为5的分片（shingles）。
使用100个种子计算MinHash → 每个样本（文本）得到一个大小为100的哈希值。
将每个哈希值分成10个桶 → 每个桶包含 (100 / 10) = 10 个数字，将每个桶的数字哈希成1个哈希值 → 每个样本得到10个哈希值。
为每个桶查找重复项：找出具有相同哈希值的样本 → 计算成对的Jaccard相似度 → 如果相似度 >0.7，则认为是重复项。
收集所有桶中的重复项并过滤。

训练超参数

参数	值
训练模式	fp16混合精度
优化器	AdamW
Adam的beta值	0.9, 0.98
Adam的epsilon值	1e-6
权重衰减	1e-2
批量大小	2240
训练步数	1kk
热身步数	10k
学习率调度器	线性
学习率	2e-5
梯度范数	1.0

该模型在配备8个A100的机器上训练了约30天。

架构细节

参数	值
编码器层数	12
编码器注意力头数	12
编码器嵌入维度	768
编码器前馈网络嵌入维度	3,072
激活函数	GeLU
注意力丢弃率	0.1
丢弃率	0.1
最大位置数	512
词表大小	50266
分词器类型	字节级BPE

评估

我们在 Russian Super Glue 开发集上对该模型进行了评估。每个任务中的最佳结果用粗体标记。除了DeBERTa的蒸馏版本外，所有模型的大小相同。

模型	RCB	PARus	MuSeRC	TERRa	RUSSE	RWSD	DaNetQA	得分
vk-deberta-distill	0.433	0.56	0.625	0.59	0.943	0.569	0.726	0.635
vk-roberta-base	0.46	0.56	0.679	0.769	0.960	0.569	0.658	0.665
vk-deberta-base	0.450	0.61	0.722	0.704	0.948	0.578	0.76	0.682
vk-bert-base	0.467	0.57	0.587	0.704	0.953	0.583	0.737	0.657
sber-bert-base	0.491	0.61	0.663	0.769	0.962	0.574	0.678	0.678