deberta-v1-distill開源雙向編碼器模型 - 免費部署助力俄語文本處理應用

首頁

Deberta V1 Distill

由deepvk開發

針對俄語預訓練的雙向編碼器模型，通過標準掩碼語言建模目標在大規模文本語料上訓練完成

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #俄語特徵提取 #社交文本優化 #輕量級編碼器

下載量 166

發布時間 : 3/17/2023

模型概述

這是一個基於DeBERTa架構的俄語預訓練模型，主要用於特徵提取任務。模型通過蒸餾技術壓縮，保留了教師模型的核心能力。

模型特點

高效蒸餾

採用SANH等人的蒸餾方法，通過間隔抽取教師模型層初始化，在保持性能的同時減小模型規模

大規模訓練數據

使用400GB經過嚴格去重的混合文本數據，包含維基百科、社交媒體、文學網站等多種來源

優化的去重流程

採用5字符shingle指紋和MinHash技術進行高效去重，確保訓練數據質量

模型能力

俄語文本特徵提取

多語言理解

上下文編碼

使用案例

自然語言處理

俄語文本分類

可用於俄語文本的情感分析、主題分類等任務

信息檢索

為俄語文檔生成高質量的嵌入表示，提升檢索效果

🚀 DeBERTa-distill

DeBERTa-distill是一個針對俄語的預訓練雙向編碼器。該模型在包含開放社交數據的大型文本語料庫上，使用標準的掩碼語言模型（MLM）目標進行訓練。更多信息請參閱“訓練詳情”部分。

⚠️ 此模型僅包含編碼器部分，沒有任何預訓練的頭部。

開發者： deepvk
模型類型： DeBERTa
支持語言： 主要為俄語，少量其他語言
許可證： Apache 2.0

🚀 快速開始

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("deepvk/deberta-v1-distill")
model = AutoModel.from_pretrained("deepvk/deberta-v1-distill")

text = "Привет, мир!"

inputs = tokenizer(text, return_tensors='pt')
predictions = model(**inputs)

📚 詳細文檔

📦 訓練數據

總共使用了400GB經過過濾和去重的文本。數據來源包括：維基百科、書籍、推特評論、Pikabu、Proza.ru、電影字幕、新聞網站和社交語料庫。

去重流程

計算大小為5的分片（shingles）
使用100個種子計算MinHash → 每個樣本（文本）得到一個大小為100的哈希值
將每個哈希值分成10個桶 → 每個桶包含 (100 / 10) = 10 個數字，將每個桶哈希成1個哈希值 → 每個樣本得到10個哈希值
為每個桶查找重複項：找出具有相同哈希值的樣本 → 計算成對的Jaccard相似度 → 如果相似度 >0.7，則認為是重複項
收集所有桶中的重複項並過濾

🔧 訓練超參數

參數	值
訓練模式	fp16混合精度
優化器	AdamW
Adam的beta值	0.9,0.98
Adam的epsilon值	1e-6
權重衰減	1e-2
批量大小	3840
訓練步數	100k
熱身步數	5k
學習率調度器	Cosine
學習率	5e-4
梯度範數	1.0

該模型在配備8個A100的機器上訓練了約15天。

🔧 架構細節

參數	值
編碼器層數	6
編碼器注意力頭數量	12
編碼器嵌入維度	768
編碼器前饋網絡嵌入維度	3,072
激活函數	GeLU
注意力丟棄率	0.1
丟棄率	0.1
最大位置數	512
詞彙表大小	50266
分詞器類型	字節級BPE

🔧 蒸餾過程

在蒸餾過程中，我們遵循 SANH等人的方法。學生模型從教師模型初始化，僅選取每隔一層的參數。我們使用MLM損失和交叉熵損失，係數均為0.5。

📊 評估

我們在 Russian Super Glue 開發集上對模型進行了評估。每個任務的最佳結果用粗體標記。除了DeBERTa的蒸餾版本外，所有模型的大小相同。

模型	RCB	PARus	MuSeRC	TERRa	RUSSE	RWSD	DaNetQA	得分
vk-deberta-distill	0.433	0.56	0.625	0.59	0.943	0.569	0.726	0.635
vk-roberta-base	0.46	0.56	0.679	0.769	0.960	0.569	0.658	0.665
vk-deberta-base	0.450	0.61	0.722	0.704	0.948	0.578	0.76	0.682
vk-bert-base	0.467	0.57	0.587	0.704	0.953	0.583	0.737	0.657
sber-bert-base	0.491	0.61	0.663	0.769	0.962	0.574	0.678	0.678