🚀 印地语RoBERTa基础模型
这是一个基于掩码语言建模(MLM)目标在印地语语料上预训练的模型,能助力印地语自然语言处理任务,为相关应用提供强大支持。
🚀 快速开始
你可以直接使用此模型配合掩码语言建模的管道进行操作。以下是具体的代码示例:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='flax-community/roberta-hindi')
>>> unmasker("हम आपके सुखद <mask> की कामना करते हैं")
[{'score': 0.3310680091381073,
'sequence': 'हम आपके सुखद सफर की कामना करते हैं',
'token': 1349,
'token_str': ' सफर'},
{'score': 0.15317578613758087,
'sequence': 'हम आपके सुखद पल की कामना करते हैं',
'token': 848,
'token_str': ' पल'},
{'score': 0.07826550304889679,
'sequence': 'हम आपके सुखद समय की कामना करते हैं',
'token': 453,
'token_str': ' समय'},
{'score': 0.06304813921451569,
'sequence': 'हम आपके सुखद पहल की कामना करते हैं',
'token': 404,
'token_str': ' पहल'},
{'score': 0.058322224766016006,
'sequence': 'हम आपके सुखद अवसर की कामना करते हैं',
'token': 857,
'token_str': ' अवसर'}]
✨ 主要特性
- 该模型是基于掩码语言建模(MLM)目标,在大量印地语数据上进行预训练的Transformer模型。
- 提供了一个更具交互性和对比性的演示:点击查看 。
📦 安装指南
文档未提及安装步骤,如需使用可参考 transformers
库的安装方法。
💻 使用示例
基础用法
from transformers import pipeline
unmasker = pipeline('fill-mask', model='flax-community/roberta-hindi')
result = unmasker("हम आपके सुखद <mask> की कामना करते हैं")
print(result)
📚 详细文档
模型描述
印地语RoBERTa是一个在大量印地语数据(mc4、oscar和indic - nlp 数据集的组合)上预训练的Transformer模型。
训练数据
印地语RoBERTa模型在以下数据集的组合上进行预训练:
训练过程
预处理
文本使用字节版本的字节对编码(BPE)进行分词,词汇表大小为50265。模型的输入采用长度为512的连续标记片段,这些片段可能跨越多个文档。新文档的开头用 <s>
标记,结尾用 </s>
标记。
- 我们必须对 mC4 和 oscar 数据集进行清理,从数据集中删除所有非印地语(非天城文)字符。
- 我们尝试通过 手动标注 过滤 IndicGlue 基准的WikiNER评估集,其中实际标签不正确,并修改 下游评估数据集。
每个句子的掩码过程细节如下:
- 15%的标记被掩码。
- 在80%的情况下,被掩码的标记被
<mask>
替换。
- 在10%的情况下,被掩码的标记被一个与它们所替换的标记不同的随机标记替换。
- 在剩下的10%的情况下,被掩码的标记保持不变。
与BERT不同,掩码在预训练期间是动态进行的(例如,它在每个epoch都会改变,而不是固定的)。
预训练
该模型在Google Cloud Engine TPUv3 - 8机器(具有335GB的RAM、1000GB的硬盘和96个CPU核心)上进行训练。使用 mC4、oscar 和上述其他数据集的组合数据集的随机洗牌来训练模型。训练日志可在 wandb 中查看。
评估结果
印地语RoBERTa在各种下游任务上进行了评估,结果总结如下:
任务 |
任务类型 |
IndicBERT |
HindiBERTa |
Indic Transformers Hindi BERT |
RoBERTa Hindi Guj San |
RoBERTa Hindi |
BBC新闻分类 |
体裁分类 |
76.44 |
66.86 |
77.6 |
64.9 |
73.67 |
WikiNER |
标记分类 |
- |
90.68 |
95.09 |
89.61 |
92.76 |
IITP产品评论 |
情感分析 |
78.01 |
73.23 |
78.39 |
66.16 |
75.53 |
IITP电影评论 |
情感分析 |
60.97 |
52.26 |
70.65 |
49.35 |
61.29 |
🔧 技术细节
- 分词方式:使用字节版本的字节对编码(BPE),词汇表大小为50265。
- 输入格式:模型输入为长度512的连续标记片段,新文档开头用
<s>
标记,结尾用 </s>
标记。
- 掩码策略:15%的标记被掩码,掩码方式动态变化,不同情况有不同的替换规则。
- 训练环境:在Google Cloud Engine TPUv3 - 8机器上训练,训练日志可在 wandb 查看。
📄 许可证
文档未提及许可证信息。
团队成员
致谢
非常感谢Hugging Face 🤗 和Google Jax/Flax团队举办了如此精彩的社区周活动,尤其感谢他们提供了如此强大的计算资源。同时,非常感谢 苏拉杰·帕蒂尔 和 帕特里克·冯·普拉滕 在整个活动期间的指导。
