🚀 RoBERTa-印地語-古吉拉特語-梵語
本項目的模型是一個多語言模型,類似RoBERTa,在印地語、梵語和古吉拉特語的維基百科文章上進行訓練。該模型能幫助處理多種印度語言相關的自然語言處理任務,具有一定的通用性和實用性。
🚀 快速開始
from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline
tokenizer = AutoTokenizer.from_pretrained("surajp/RoBERTa-hindi-guj-san")
model = AutoModelWithLMHead.from_pretrained("surajp/RoBERTa-hindi-guj-san")
fill_mask = pipeline(
"fill-mask",
model=model,
tokenizer=tokenizer
)
fill_mask("ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો <mask> હતો.")
'''
輸出:
--------
[
{'score': 0.07849744707345963, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો જ હતો.</s>', 'token': 390},
{'score': 0.06273336708545685, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો ન હતો.</s>', 'token': 478},
{'score': 0.05160355195403099, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો થઇ હતો.</s>', 'token': 2075},
{'score': 0.04751499369740486, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો એક હતો.</s>', 'token': 600},
{'score': 0.03788900747895241, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો પણ હતો.</s>', 'token': 840}
]
✨ 主要特性
- 多語言支持:該模型能夠處理印地語、梵語和古吉拉特語三種語言。
- 預訓練與微調:先使用印地語進行預訓練,再在梵語和古吉拉特語上進行微調,有助於模型學習相似語言。
📚 詳細文檔
模型描述
這是一個類似多語言RoBERTa的模型,在印地語、梵語和古吉拉特語的維基百科文章上進行訓練。分詞器在組合文本上進行訓練。模型先使用印地語進行預訓練,然後在梵語和古吉拉特語的組合文本上進行微調,期望通過印地語的預訓練幫助模型學習相似語言。
配置
屬性 |
詳情 |
hidden_size |
768 |
num_attention_heads |
12 |
num_hidden_layers |
6 |
vocab_size |
30522 |
model_type |
roberta |
預期用途與限制
如何使用
上述快速開始部分已經給出了使用示例,通過transformers
庫加載模型和分詞器,並使用pipeline
進行掩碼填充任務。
訓練數據
模型使用了Kaggle上清理後的印地語、梵語和古吉拉特語的維基百科文章,這些數據包含訓練和評估文本,也被用於 iNLTK。
訓練過程
- 在TPU上(使用
xla_spawn.py
)進行訓練。
- 用於語言建模任務。
- 在多個epoch中,將
--block_size
從128逐步增加到256。
- 分詞器在組合文本上進行訓練。
- 先使用印地語進行預訓練,再在梵語和古吉拉特語文本上進行微調。
訓練命令如下:
--model_type distillroberta-base \
--model_name_or_path "/content/SanHiGujBERTa" \
--mlm_probability 0.20 \
--line_by_line \
--save_total_limit 2 \
--per_device_train_batch_size 128 \
--per_device_eval_batch_size 128 \
--num_train_epochs 5 \
--block_size 256 \
--seed 108 \
--overwrite_output_dir \
評估結果
困惑度(perplexity) = 2.920005983224673
📄 許可證
本項目採用MIT許可證。
由 Suraj Parmar/@parmarsuraj99 創建 | 領英
🏳️🌈 於印度用心打造