roberta-kaz-large開源哈薩克語語言模型 - 免費用於哈薩克語文本處理任務

首頁

Roberta Kaz Large

由nur-dev開發

基於RoBERTa架構的哈薩克語語言模型，採用RobertaForMaskedLM從頭訓練而成，適用於哈薩克語文本處理任務。

大型語言模型

Transformers

其他#哈薩克語預訓練 #多領域文本理解 #掩碼語言建模

下載量 93

發布時間 : 7/24/2024

模型概述

該模型是一個專門針對哈薩克語優化的RoBERTa模型，主要用於填充掩碼任務，能夠理解和生成哈薩克語文本。

模型特點

多領域訓練數據

使用包含530多萬條樣本的多領域哈薩克語數據集訓練，確保模型具有廣泛的泛化能力。

高效訓練

在兩張NVIDIA A100 GPU上通過梯度累積技術高效訓練，共進行10個週期。

學習率優化

採用緩慢上升的學習率策略以最大化訓練穩定性，並在208,100個優化步驟中持續調整。

模型能力

哈薩克語文本理解

哈薩克語文本生成

填充掩碼預測

使用案例

教育

學術文本分析

用於分析哈薩克語學術文本，理解複雜概念和術語。

內容生成

哈薩克語文本補全

在寫作或編輯過程中自動補全哈薩克語句子或段落。

🚀 RoBERTa-kaz-large

roberta-kaz-large 是一個基於RoBERTa架構的哈薩克語語言模型，使用 RobertaForMaskedLM 架構從零開始訓練。該模型在Hugging Face的 “kz-transformers/multidomain-kazakh-dataset” 數據集上進行訓練，該數據集涵蓋了多個領域，以確保模型具有廣泛的泛化能力。

🚀 快速開始

本模型可以配合Hugging Face的 Transformers 庫使用。

📦 安裝指南

使用以下代碼安裝所需的庫：

pip install transformers

💻 使用示例

基礎用法

from transformers import RobertaTokenizerFast, RobertaForMaskedLM

tokenizer = RobertaTokenizerFast.from_pretrained('nur-dev/roberta-kaz-large')
model = RobertaForMaskedLM.from_pretrained('nur-dev/roberta-kaz-large')

高級用法

from transformers import pipeline
pipe = pipeline('fill-mask', model='nur-dev/roberta-kaz-large')
predicted = pipe("Қазіргі <mask> әлемдік деңгейдегі <mask> университеттері сапалы білім, зияткерлік және мәдени <mask> беретін <mask> <mask> <mask> ғана емес, сонымен қатар мемлекет үшін <mask> қабілетті адами капиталды құратын <mask>, ғылым және өндірісті интеграциялаудың <mask> <mask> болып табылады.")

for t in predicted:
  print(t[0]['score'], t[0]['token_str'])

🔧 技術細節

模型使用兩塊NVIDIA A100 GPU在 “kz-transformers/multidomain-kazakh-dataset” 數據集的530多萬個樣本上進行訓練。訓練共進行了10個輪次，通過梯度累積有效地處理了大批量數據。學習率採用了緩慢上升的策略，以最大程度地保證學習的穩定性，並在208,100步內進行優化，重點提升模型理解和生成哈薩克語的能力。