D

Deberta V1 Base

由deepvk開發
DeBERTa-base是一個針對俄語的預訓練雙向編碼器,主要用於處理俄語文本任務。
下載量 160
發布時間 : 2/7/2023

模型概述

該模型在包含開放社交數據的大型文本語料庫上,使用標準的掩碼語言模型(MLM)目標進行訓練,支持俄語及少量其他語言。

模型特點

大規模訓練數據
使用400GB經過過濾和去重的文本數據訓練,包括維基百科、書籍、推特評論等多種來源。
高效去重流程
採用MinHash和Jaccard相似度計算進行數據去重,確保訓練數據的多樣性。
高性能優化
使用AdamW優化器和混合精度訓練,在8個A100上訓練30天,達到高效訓練效果。

模型能力

俄語文本處理
掩碼語言模型
文本編碼

使用案例

自然語言處理
俄語文本分類
可用於俄語文本的分類任務,如情感分析、主題分類等。
在Russian Super Glue開發集上表現優異。
文本嵌入
生成俄語文本的嵌入表示,用於下游任務如相似度計算、聚類等。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase