🚀 梵语预训练模型SanBERTa
SanBERTa是一个在梵语语料上训练的RoBERTa模型,可用于梵语相关的自然语言处理任务,如词嵌入生成、掩码预测等,为梵语的语言研究和处理提供了有力的工具。
🚀 快速开始
SanBERTa模型可直接从Hugging Face Model Hub获取,通过相应的代码示例即可快速应用于梵语的处理任务,如词嵌入生成和掩码预测。
✨ 主要特性
- 模型规模:训练后的模型大小为340MB。
- 数据集丰富:使用了来自维基百科的梵语文章和CLTK的梵语片段作为训练数据,且数据集包含评估集。
- 可配置性:模型的参数如注意力头数量、隐藏层数量等都可进行配置。
- 训练方式:在TPU上进行训练,用于语言建模,且在训练过程中逐步增加块大小。
📦 安装指南
暂未提供具体安装命令,可参考Hugging Face相关文档进行模型的安装和使用。
💻 使用示例
基础用法
词嵌入生成
tokenizer = AutoTokenizer.from_pretrained("surajp/SanBERTa")
model = RobertaModel.from_pretrained("surajp/SanBERTa")
op = tokenizer.encode("इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।", return_tensors="pt")
ps = model(op)
ps[0].shape
'''
输出:
--------
torch.Size([1, 47, 768])
掩码预测
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model="surajp/SanBERTa",
tokenizer="surajp/SanBERTa"
)
fill_mask("इयं भाषा न केवल<mask> भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।")
import torch
enc = tokenizer.encode("इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।", return_tensors="pt")
ps = model(enc)
print(ps[0].shape)
'''
输出:
--------
[{'score': 0.7516744136810303,
'sequence': '<s> इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।</s>',
'token': 280,
'token_str': 'à¤Ĥ'},
{'score': 0.06230105459690094,
'sequence': '<s> इयं भाषा न केवली भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।</s>',
'token': 289,
'token_str': 'à¥Ģ'},
{'score': 0.055410224944353104,
'sequence': '<s> इयं भाषा न केवला भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।</s>',
'token': 265,
'token_str': 'ा'},
...]
📚 详细文档
数据集
配置参数
参数 |
值 |
num_attention_heads |
12 |
num_hidden_layers |
6 |
hidden_size |
768 |
vocab_size |
29407 |
训练信息
- 训练设备:在TPU上进行训练。
- 训练任务:用于语言建模。
- 训练策略:在训练过程中,逐步将
--block_size
从128增加到256。
评估指标
指标 |
值 |
困惑度 (block_size=256 ) |
4.04 |
📄 许可证
暂未提供相关许可证信息。
引用信息
@misc{Parmar2020Sanberta,
author = {Parmar, Suraj},
title = {SanBERTa - a RoBERTa trained on Sanskrit},
year = {2020},
month = {Jun},
publisher = {Hugging Face Model Hub},
url = {https://huggingface.co/surajp/SanBERTa}
}
声明
本项目由 Suraj Parmar/@parmarsuraj99 创建 | 领英
在印度用心打造 ♥