🚀 afriberta_large
AfriBERTa large是一个预训练的多语言语言模型,拥有约1.26亿个参数。该模型可用于多种非洲语言的文本分类和命名实体识别等下游任务,展现出了具有竞争力的性能。
🚀 快速开始
你可以使用Transformers库将此模型用于任何下游任务。例如,假设我们想在一个标记分类任务上对该模型进行微调,可以按以下步骤操作:
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> model = AutoModelForTokenClassification.from_pretrained("castorini/afriberta_large")
>>> tokenizer = AutoTokenizer.from_pretrained("castorini/afriberta_large")
>>> tokenizer.model_max_length = 512
✨ 主要特性
- AfriBERTa large是一个拥有约1.26亿参数的预训练多语言语言模型。
- 该模型有10层、6个注意力头、768个隐藏单元和3072的前馈大小。
- 在11种非洲语言上进行了预训练,包括阿法尔奥罗莫语、阿姆哈拉语、加胡扎语、豪萨语、伊博语、尼日利亚皮钦语、索马里语、斯瓦希里语、提格雷尼亚语和约鲁巴语。
- 在多种非洲语言的文本分类和命名实体识别等下游任务中展现出了具有竞争力的性能,甚至在一些未进行预训练的语言上也是如此。
📚 详细文档
预期用途与限制
使用方法
你可以使用Transformers库将此模型用于任何下游任务。上述快速开始部分已给出了在标记分类任务上微调该模型的示例。
限制和偏差
- 该模型可能受其训练数据集的限制,这些数据主要来自特定时间段的新闻文章,因此可能泛化能力不佳。
- 该模型在非常少的数据(少于1GB)上进行训练,可能没有见过足够的数据来学习非常复杂的语言关系。
训练数据
该模型在来自BBC新闻网站和Common Crawl的数据集聚合上进行训练。
训练过程
有关训练过程的信息,请参考AfriBERTa 论文 或 仓库。
📄 许可证
本项目采用MIT许可证。
BibTeX引用和引用信息
@inproceedings{ogueji-etal-2021-small,
title = "Small Data? No Problem! Exploring the Viability of Pretrained Multilingual Language Models for Low-resourced Languages",
author = "Ogueji, Kelechi and
Zhu, Yuxin and
Lin, Jimmy",
booktitle = "Proceedings of the 1st Workshop on Multilingual Representation Learning",
month = nov,
year = "2021",
address = "Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.mrl-1.11",
pages = "116--126",
}
支持语言信息
属性 |
详情 |
支持语言 |
奥罗莫语、阿姆哈拉语、卢旺达-基隆迪混合语、基隆迪语、豪萨语、伊博语、索马里语、斯瓦希里语、提格雷尼亚语、约鲁巴语、尼日利亚皮钦语、多语言 |
训练数据集 |
castorini/afriberta-corpus |