RoBERTa-hindi-guj-san開源模型 - 免費支持印地語、梵語和古吉拉特語處理

首頁

Roberta Hindi Guj San

由surajp開發

基於印地語、梵語和古吉拉特語維基百科文章訓練的多語言RoBERTa類模型，支持三種印度語系語言處理。

大型語言模型其他開源協議:MIT #印度語系多語言 #維基百科預訓練 #跨語言遷移學習

下載量 51

發布時間 : 3/2/2022

模型概述

該模型通過分階段訓練策略，先在印地語上預訓練，再在梵語和古吉拉特語混合文本上微調，旨在利用語言相似性提升多語言處理能力。

模型特點

多語言聯合訓練

通過共享詞表和分階段訓練策略，實現三種印度語系語言的聯合建模

遷移學習優化

先使用印地語預訓練，再微調其他語言，利用語言相似性提升效果

高效分詞器

基於合併文本訓練的統一分詞器，支持三語混合處理

模型能力

文本填充

語言建模

多語言文本理解

使用案例

教育領域

古吉拉特語語法檢查

自動檢測和修正古吉拉特語句法錯誤

示例顯示能正確預測句子缺失成分

文化保護

梵語古籍數字化

輔助古代梵語文獻的機器處理與理解

🚀 RoBERTa-印地語-古吉拉特語-梵語

本項目的模型是一個多語言模型，類似RoBERTa，在印地語、梵語和古吉拉特語的維基百科文章上進行訓練。該模型能幫助處理多種印度語言相關的自然語言處理任務，具有一定的通用性和實用性。

🚀 快速開始

# 示例用法
from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline

tokenizer = AutoTokenizer.from_pretrained("surajp/RoBERTa-hindi-guj-san")
model = AutoModelWithLMHead.from_pretrained("surajp/RoBERTa-hindi-guj-san")

fill_mask = pipeline(
    "fill-mask",
    model=model,
    tokenizer=tokenizer
)

# 梵語: इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।
# 印地語:  अगर आप अब अभ्यास नहीं करते हो तो आप अपने परीक्षा में मूर्खतापूर्ण गलतियाँ करोगे।
# 古吉拉特語: ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો <mask> હતો.
fill_mask("ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો <mask> હતો.")

'''
輸出:
--------
[
{'score': 0.07849744707345963, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો જ હતો.</s>', 'token': 390},
{'score': 0.06273336708545685, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો ન હતો.</s>', 'token': 478},
{'score': 0.05160355195403099, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો થઇ હતો.</s>', 'token': 2075},
{'score': 0.04751499369740486, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો એક હતો.</s>', 'token': 600},
{'score': 0.03788900747895241, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો પણ હતો.</s>', 'token': 840}
]

✨ 主要特性

多語言支持：該模型能夠處理印地語、梵語和古吉拉特語三種語言。
預訓練與微調：先使用印地語進行預訓練，再在梵語和古吉拉特語上進行微調，有助於模型學習相似語言。

📚 詳細文檔

模型描述

這是一個類似多語言RoBERTa的模型，在印地語、梵語和古吉拉特語的維基百科文章上進行訓練。分詞器在組合文本上進行訓練。模型先使用印地語進行預訓練，然後在梵語和古吉拉特語的組合文本上進行微調，期望通過印地語的預訓練幫助模型學習相似語言。

配置

屬性	詳情
`hidden_size`	768
`num_attention_heads`	12
`num_hidden_layers`	6
`vocab_size`	30522
`model_type`	`roberta`

預期用途與限制

如何使用

上述快速開始部分已經給出了使用示例，通過transformers庫加載模型和分詞器，並使用pipeline進行掩碼填充任務。

訓練數據

模型使用了Kaggle上清理後的印地語、梵語和古吉拉特語的維基百科文章，這些數據包含訓練和評估文本，也被用於 iNLTK。

訓練過程

在TPU上（使用 xla_spawn.py）進行訓練。
用於語言建模任務。
在多個epoch中，將 --block_size 從128逐步增加到256。
分詞器在組合文本上進行訓練。
先使用印地語進行預訓練，再在梵語和古吉拉特語文本上進行微調。

訓練命令如下：

--model_type distillroberta-base \
--model_name_or_path "/content/SanHiGujBERTa" \
--mlm_probability 0.20 \
--line_by_line \
--save_total_limit 2 \
--per_device_train_batch_size 128 \
--per_device_eval_batch_size 128 \
--num_train_epochs 5 \
--block_size 256 \
--seed 108 \
--overwrite_output_dir \