🚀 mT5_base_yoruba_adr
mT5_base_yoruba_adr 是一个针对约鲁巴语的自动变音符号恢复模型,基于微调后的 mT5-base 模型。它在为约鲁巴语文本添加正确的变音符号或声调标记方面达到了最先进的性能。
🚀 快速开始
你可以使用 Transformers 的 pipeline 来使用这个用于自动变音符号恢复(ADR)的模型。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("")
model = AutoModelForTokenClassification.from_pretrained("")
nlp = pipeline("", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 基于微调的 mT5-base 模型,为约鲁巴语实现自动变音符号恢复。
- 在为约鲁巴语文本添加正确的变音符号或声调标记方面达到了最先进的性能。
📦 安装指南
原文档未提及安装步骤,此部分跳过。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("")
model = AutoModelForTokenClassification.from_pretrained("")
nlp = pipeline("", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
高级用法
原文档未提及高级用法示例,此部分跳过。
📚 详细文档
预期用途和限制
如何使用
你可以使用 Transformers 的 pipeline 来使用这个用于自动变音符号恢复(ADR)的模型。
限制和偏差
此模型受限于其特定时间段内带有实体注释的新闻文章训练数据集。对于不同领域的所有用例,它可能无法很好地泛化。
训练数据
该模型在 JW300 约鲁巴语语料库和 Menyo - 20k 数据集上进行了微调。
训练过程
该模型在单个 NVIDIA V100 GPU 上进行训练。
测试集评估结果(BLEU 分数)
信息表格
属性 |
详情 |
模型类型 |
基于微调 mT5-base 的约鲁巴语自动变音符号恢复模型 |
训练数据 |
JW300 约鲁巴语语料库和 Menyo - 20k 数据集 |
🔧 技术细节
原文档未提供足够技术实现细节,此部分跳过。
📄 许可证
原文档未提及许可证信息,此部分跳过。
BibTeX 条目和引用信息
由 Jesujoba Alabi 和 David Adelani 完成