roberta-hindi開源模型 - 基於印地語數據預訓練，支持掩碼語言建模

首頁

Roberta Hindi

由flax-community開發

基於海量印地語數據預訓練的RoBERTa模型，支持掩碼語言建模任務

大型語言模型 #印地語文本填充 #多源數據預訓練 #動態掩碼策略

下載量 212

發布時間 : 3/2/2022

模型概述

這是一個在印地語數據上預訓練的RoBERTa模型，採用掩碼語言建模(MLM)目標訓練，可用於文本填充等自然語言處理任務。

模型特點

大規模印地語預訓練

基於mc4、oscar和indic-nlp等大型印地語數據集聯合預訓練

動態掩碼策略

採用15%動態掩碼比例，其中80%替換為<mask>，10%隨機替換，10%保持不變

多數據集整合

整合了多個高質量印地語數據集，包括新聞、評論和維基數據等

模型能力

印地語文本填充

印地語文本理解

印地語語言模型推理

使用案例

文本處理

文本自動補全

自動補全印地語句子中的缺失部分

如示例所示能準確預測'सफर'(旅程)、'पल'(時刻)等合理詞彙

情感分析

產品評論分析

分析印地語產品評論的情感傾向

在IITP產品評論數據集上達到75.53%準確率

🚀 印地語RoBERTa基礎模型

這是一個基於掩碼語言建模（MLM）目標在印地語語料上預訓練的模型，能助力印地語自然語言處理任務，為相關應用提供強大支持。

🚀 快速開始

你可以直接使用此模型配合掩碼語言建模的管道進行操作。以下是具體的代碼示例：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='flax-community/roberta-hindi')
>>> unmasker("हम आपके सुखद <mask> की कामना करते हैं")
[{'score': 0.3310680091381073,
  'sequence': 'हम आपके सुखद सफर की कामना करते हैं',
  'token': 1349,
  'token_str': ' सफर'},
 {'score': 0.15317578613758087,
  'sequence': 'हम आपके सुखद पल की कामना करते हैं',
  'token': 848,
  'token_str': ' पल'},
 {'score': 0.07826550304889679,
  'sequence': 'हम आपके सुखद समय की कामना करते हैं',
  'token': 453,
  'token_str': ' समय'},
 {'score': 0.06304813921451569,
  'sequence': 'हम आपके सुखद पहल की कामना करते हैं',
  'token': 404,
  'token_str': ' पहल'},
 {'score': 0.058322224766016006,
  'sequence': 'हम आपके सुखद अवसर की कामना करते हैं',
  'token': 857,
  'token_str': ' अवसर'}]

✨ 主要特性

該模型是基於掩碼語言建模（MLM）目標，在大量印地語數據上進行預訓練的Transformer模型。
提供了一個更具交互性和對比性的演示：點擊查看。

📦 安裝指南

文檔未提及安裝步驟，如需使用可參考 transformers 庫的安裝方法。

💻 使用示例

基礎用法

# 使用管道進行掩碼語言建模
from transformers import pipeline
unmasker = pipeline('fill-mask', model='flax-community/roberta-hindi')
result = unmasker("हम आपके सुखद <mask> की कामना करते हैं")
print(result)

📚 詳細文檔

模型描述

印地語RoBERTa是一個在大量印地語數據（mc4、oscar和indic - nlp 數據集的組合）上預訓練的Transformer模型。

訓練數據

印地語RoBERTa模型在以下數據集的組合上進行預訓練：

OSCAR：這是一個巨大的多語言語料庫，通過使用goclassy架構對Common Crawl語料庫進行語言分類和過濾而獲得。
mC4：這是Common Crawl網絡爬取語料庫的一個多語言、龐大且經過清理的版本。
IndicGLUE：這是一個自然語言理解基準。
Samanantar：這是一個用於印度語言的平行語料庫集合。
印地語文本長短摘要語料庫：這是一個從印地語新聞網站收集的約180k篇文章及其標題和摘要的集合。
印地語文本短摘要語料庫：這是一個從印地語新聞網站收集的約330k篇文章及其標題的集合。
舊報紙印地語：這是HC語料庫報紙的一個清理子集。

訓練過程

預處理

文本使用字節版本的字節對編碼（BPE）進行分詞，詞彙表大小為50265。模型的輸入採用長度為512的連續標記片段，這些片段可能跨越多個文檔。新文檔的開頭用 <s> 標記，結尾用 </s> 標記。

我們必須對 mC4 和 oscar 數據集進行清理，從數據集中刪除所有非印地語（非天城文）字符。
我們嘗試通過手動標註過濾 IndicGlue 基準的WikiNER評估集，其中實際標籤不正確，並修改下游評估數據集。

每個句子的掩碼過程細節如下：

15%的標記被掩碼。
在80%的情況下，被掩碼的標記被 <mask> 替換。
在10%的情況下，被掩碼的標記被一個與它們所替換的標記不同的隨機標記替換。
在剩下的10%的情況下，被掩碼的標記保持不變。與BERT不同，掩碼在預訓練期間是動態進行的（例如，它在每個epoch都會改變，而不是固定的）。

預訓練

該模型在Google Cloud Engine TPUv3 - 8機器（具有335GB的RAM、1000GB的硬盤和96個CPU核心）上進行訓練。使用 mC4、oscar 和上述其他數據集的組合數據集的隨機洗牌來訓練模型。訓練日誌可在 wandb 中查看。

評估結果

印地語RoBERTa在各種下游任務上進行了評估，結果總結如下：

任務	任務類型	IndicBERT	HindiBERTa	Indic Transformers Hindi BERT	RoBERTa Hindi Guj San	RoBERTa Hindi
BBC新聞分類	體裁分類	76.44	66.86	77.6	64.9	73.67
WikiNER	標記分類	-	90.68	95.09	89.61	92.76
IITP產品評論	情感分析	78.01	73.23	78.39	66.16	75.53
IITP電影評論	情感分析	60.97	52.26	70.65	49.35	61.29