roberta-base開源雙向編碼器模型 - 用於俄語特徵提取，基於大規模語料訓練

首頁

Roberta Base

由deepvk開發

針對俄語預訓練的雙向編碼器模型，基於大規模文本語料訓練，支持特徵提取任務。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #俄語NLP #社交文本預訓練 #多源語料

下載量 44

發布時間 : 2/7/2023

模型概述

這是一個基於RoBERTa架構的俄語預訓練模型，主要用於文本特徵提取。模型在大規模俄語語料庫上訓練，包含社交數據、維基百科、新聞等多種文本類型。

模型特點

俄語優化

專門針對俄語文本進行預訓練，包含豐富的俄語語言特徵

大規模訓練數據

使用500GB俄語文本數據訓練，涵蓋多種文本類型和領域

高性能架構

基於RoBERTa架構，具有12層編碼器和768維嵌入空間

模型能力

俄語文本特徵提取

上下文語義理解

多領域文本處理

使用案例

自然語言處理

文本分類

可用於俄語文本分類任務

在Russian Super Glue基準測試中表現良好

語義分析

適用於俄語文本的語義理解和分析

🚀 RoBERTa-base

RoBERTa-base 是一個預訓練的雙向編碼器，專為處理俄語而設計。該模型在包含開放社交數據的大型文本語料庫上，使用標準的掩碼語言模型（MLM）目標進行訓練。如需更多信息，請參閱“訓練詳情”部分。

⚠️ 此模型僅包含編碼器部分，沒有任何預訓練的頭部。

🚀 快速開始

以下是使用該模型的基本代碼示例：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("deepvk/roberta-base")
model = AutoModel.from_pretrained("deepvk/roberta-base")

text = "Привет, мир!"

inputs = tokenizer(text, return_tensors='pt')
predictions = model(**inputs)

✨ 主要特性

開發團隊：deepvk
模型類型：RoBERTa
支持語言：主要為俄語，少量其他語言
許可證：Apache 2.0

📚 詳細文檔

📦 訓練數據

總共使用了 500GB 的原始文本，數據來源包括：維基百科、書籍、推特評論、Pikabu、Proza.ru、電影字幕、新聞網站和社交語料庫。

⚙️ 訓練超參數

參數	值
訓練機制	fp16 混合精度
訓練框架	Fairseq
優化器	Adam
Adam 係數	0.9, 0.98
Adam 誤差	1e-6
訓練步數	500k

該模型在配備 8 個 A100 GPU 的機器上訓練了約 22 天。

🏗️ 架構細節

參數	值
編碼器層數	12
編碼器注意力頭數	12
編碼器嵌入維度	768
編碼器前饋網絡嵌入維度	3,072
激活函數	GeLU
注意力丟棄率	0.1
丟棄率	0.1
最大位置數	512
詞表大小	50266
分詞器類型	字節級 BPE

📊 評估

我們在 Russian Super Glue 開發集上對該模型進行了評估。每個任務中的最佳結果用粗體標記。除了 DeBERTa 的蒸餾版本外，所有模型的規模相同。

模型	RCB	PARus	MuSeRC	TERRa	RUSSE	RWSD	DaNetQA	得分
vk-deberta-distill	0.433	0.56	0.625	0.59	0.943	0.569	0.726	0.635
vk-roberta-base	0.46	0.56	0.679	0.769	0.960	0.569	0.658	0.665
vk-deberta-base	0.450	0.61	0.722	0.704	0.948	0.578	0.76	0.682
vk-bert-base	0.467	0.57	0.587	0.704	0.953	0.583	0.737	0.657
sber-bert-base	0.491	0.61	0.663	0.769	0.962	0.574	0.678	0.678