deberta-v1-base開源預訓練模型 - 免費處理各類俄語文本任務

首頁

Deberta V1 Base

由deepvk開發

DeBERTa-base是一個針對俄語的預訓練雙向編碼器，主要用於處理俄語文本任務。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #俄語NLP #社交文本處理 #高精度編碼器

下載量 160

發布時間 : 2/7/2023

模型概述

該模型在包含開放社交數據的大型文本語料庫上，使用標準的掩碼語言模型（MLM）目標進行訓練，支持俄語及少量其他語言。

模型特點

大規模訓練數據

使用400GB經過過濾和去重的文本數據訓練，包括維基百科、書籍、推特評論等多種來源。

高效去重流程

採用MinHash和Jaccard相似度計算進行數據去重，確保訓練數據的多樣性。

高性能優化

使用AdamW優化器和混合精度訓練，在8個A100上訓練30天，達到高效訓練效果。

模型能力

俄語文本處理

掩碼語言模型

文本編碼

使用案例

自然語言處理

俄語文本分類

可用於俄語文本的分類任務，如情感分析、主題分類等。

在Russian Super Glue開發集上表現優異。

文本嵌入

生成俄語文本的嵌入表示，用於下游任務如相似度計算、聚類等。

🚀 DeBERTa-base

DeBERTa-base是一個針對俄語的預訓練雙向編碼器。該模型在包含開放社交數據的大型文本語料庫上，使用標準的掩碼語言模型（MLM）目標進行訓練。更多信息請參閱“訓練詳情”部分。

⚠️ 重要提示

此模型僅包含編碼器部分，沒有任何預訓練的頭部。

開發者： deepvk
模型類型： DeBERTa
支持語言： 主要為俄語，少量其他語言
許可證： Apache 2.0

🚀 快速開始

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("deepvk/deberta-v1-base")
model = AutoModel.from_pretrained("deepvk/deberta-v1-base")

text = "Привет, мир!"

inputs = tokenizer(text, return_tensors='pt')
predictions = model(**inputs)

📦 安裝指南

文檔未提及安裝步驟，可參考transformers庫的官方安裝指南進行安裝。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("deepvk/deberta-v1-base")
model = AutoModel.from_pretrained("deepvk/deberta-v1-base")

text = "Привет, мир!"

inputs = tokenizer(text, return_tensors='pt')
predictions = model(**inputs)

📚 詳細文檔

訓練詳情

訓練數據

總共使用了400GB經過過濾和去重的文本。這些數據是以下幾種來源的混合：維基百科、書籍、推特評論、Pikabu、Proza.ru、電影字幕、新聞網站和社交語料庫。

去重流程

計算大小為5的分片（shingles）。
使用100個種子計算MinHash → 每個樣本（文本）得到一個大小為100的哈希值。
將每個哈希值分成10個桶 → 每個桶包含 (100 / 10) = 10 個數字，將每個桶的數字哈希成1個哈希值 → 每個樣本得到10個哈希值。
為每個桶查找重複項：找出具有相同哈希值的樣本 → 計算成對的Jaccard相似度 → 如果相似度 >0.7，則認為是重複項。
收集所有桶中的重複項並過濾。

訓練超參數

參數	值
訓練模式	fp16混合精度
優化器	AdamW
Adam的beta值	0.9, 0.98
Adam的epsilon值	1e-6
權重衰減	1e-2
批量大小	2240
訓練步數	1kk
熱身步數	10k
學習率調度器	線性
學習率	2e-5
梯度範數	1.0

該模型在配備8個A100的機器上訓練了約30天。

架構細節

參數	值
編碼器層數	12
編碼器注意力頭數	12
編碼器嵌入維度	768
編碼器前饋網絡嵌入維度	3,072
激活函數	GeLU
注意力丟棄率	0.1
丟棄率	0.1
最大位置數	512
詞表大小	50266
分詞器類型	字節級BPE

評估

我們在 Russian Super Glue 開發集上對該模型進行了評估。每個任務中的最佳結果用粗體標記。除了DeBERTa的蒸餾版本外，所有模型的大小相同。

模型	RCB	PARus	MuSeRC	TERRa	RUSSE	RWSD	DaNetQA	得分
vk-deberta-distill	0.433	0.56	0.625	0.59	0.943	0.569	0.726	0.635
vk-roberta-base	0.46	0.56	0.679	0.769	0.960	0.569	0.658	0.665
vk-deberta-base	0.450	0.61	0.722	0.704	0.948	0.578	0.76	0.682
vk-bert-base	0.467	0.57	0.587	0.704	0.953	0.583	0.737	0.657
sber-bert-base	0.491	0.61	0.663	0.769	0.962	0.574	0.678	0.678