🚀 印地語RoBERTa基礎模型
這是一個基於掩碼語言建模(MLM)目標在印地語語料上預訓練的模型,能助力印地語自然語言處理任務,為相關應用提供強大支持。
🚀 快速開始
你可以直接使用此模型配合掩碼語言建模的管道進行操作。以下是具體的代碼示例:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='flax-community/roberta-hindi')
>>> unmasker("हम आपके सुखद <mask> की कामना करते हैं")
[{'score': 0.3310680091381073,
'sequence': 'हम आपके सुखद सफर की कामना करते हैं',
'token': 1349,
'token_str': ' सफर'},
{'score': 0.15317578613758087,
'sequence': 'हम आपके सुखद पल की कामना करते हैं',
'token': 848,
'token_str': ' पल'},
{'score': 0.07826550304889679,
'sequence': 'हम आपके सुखद समय की कामना करते हैं',
'token': 453,
'token_str': ' समय'},
{'score': 0.06304813921451569,
'sequence': 'हम आपके सुखद पहल की कामना करते हैं',
'token': 404,
'token_str': ' पहल'},
{'score': 0.058322224766016006,
'sequence': 'हम आपके सुखद अवसर की कामना करते हैं',
'token': 857,
'token_str': ' अवसर'}]
✨ 主要特性
- 該模型是基於掩碼語言建模(MLM)目標,在大量印地語數據上進行預訓練的Transformer模型。
- 提供了一個更具交互性和對比性的演示:點擊查看 。
📦 安裝指南
文檔未提及安裝步驟,如需使用可參考 transformers
庫的安裝方法。
💻 使用示例
基礎用法
from transformers import pipeline
unmasker = pipeline('fill-mask', model='flax-community/roberta-hindi')
result = unmasker("हम आपके सुखद <mask> की कामना करते हैं")
print(result)
📚 詳細文檔
模型描述
印地語RoBERTa是一個在大量印地語數據(mc4、oscar和indic - nlp 數據集的組合)上預訓練的Transformer模型。
訓練數據
印地語RoBERTa模型在以下數據集的組合上進行預訓練:
訓練過程
預處理
文本使用字節版本的字節對編碼(BPE)進行分詞,詞彙表大小為50265。模型的輸入採用長度為512的連續標記片段,這些片段可能跨越多個文檔。新文檔的開頭用 <s>
標記,結尾用 </s>
標記。
- 我們必須對 mC4 和 oscar 數據集進行清理,從數據集中刪除所有非印地語(非天城文)字符。
- 我們嘗試通過 手動標註 過濾 IndicGlue 基準的WikiNER評估集,其中實際標籤不正確,並修改 下游評估數據集。
每個句子的掩碼過程細節如下:
- 15%的標記被掩碼。
- 在80%的情況下,被掩碼的標記被
<mask>
替換。
- 在10%的情況下,被掩碼的標記被一個與它們所替換的標記不同的隨機標記替換。
- 在剩下的10%的情況下,被掩碼的標記保持不變。
與BERT不同,掩碼在預訓練期間是動態進行的(例如,它在每個epoch都會改變,而不是固定的)。
預訓練
該模型在Google Cloud Engine TPUv3 - 8機器(具有335GB的RAM、1000GB的硬盤和96個CPU核心)上進行訓練。使用 mC4、oscar 和上述其他數據集的組合數據集的隨機洗牌來訓練模型。訓練日誌可在 wandb 中查看。
評估結果
印地語RoBERTa在各種下游任務上進行了評估,結果總結如下:
任務 |
任務類型 |
IndicBERT |
HindiBERTa |
Indic Transformers Hindi BERT |
RoBERTa Hindi Guj San |
RoBERTa Hindi |
BBC新聞分類 |
體裁分類 |
76.44 |
66.86 |
77.6 |
64.9 |
73.67 |
WikiNER |
標記分類 |
- |
90.68 |
95.09 |
89.61 |
92.76 |
IITP產品評論 |
情感分析 |
78.01 |
73.23 |
78.39 |
66.16 |
75.53 |
IITP電影評論 |
情感分析 |
60.97 |
52.26 |
70.65 |
49.35 |
61.29 |
🔧 技術細節
- 分詞方式:使用字節版本的字節對編碼(BPE),詞彙表大小為50265。
- 輸入格式:模型輸入為長度512的連續標記片段,新文檔開頭用
<s>
標記,結尾用 </s>
標記。
- 掩碼策略:15%的標記被掩碼,掩碼方式動態變化,不同情況有不同的替換規則。
- 訓練環境:在Google Cloud Engine TPUv3 - 8機器上訓練,訓練日誌可在 wandb 查看。
📄 許可證
文檔未提及許可證信息。
團隊成員
致謝
非常感謝Hugging Face 🤗 和Google Jax/Flax團隊舉辦瞭如此精彩的社區周活動,尤其感謝他們提供瞭如此強大的計算資源。同時,非常感謝 蘇拉傑·帕蒂爾 和 帕特里克·馮·普拉滕 在整個活動期間的指導。
