🚀 afriberta_small
AfriBERTa small是一个预训练的多语言语言模型,拥有约9700万个参数。它能够在文本分类和命名实体识别等下游任务中,为多种非洲语言提供具有竞争力的性能。
🚀 快速开始
你可以使用Transformers库将此模型应用于任何下游任务。例如,假设我们要在令牌分类任务上微调此模型,可按以下步骤操作:
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> model = AutoModelForTokenClassification.from_pretrained("castorini/afriberta_small")
>>> tokenizer = AutoTokenizer.from_pretrained("castorini/afriberta_small")
>>> tokenizer.model_max_length = 512
✨ 主要特性
- 多语言支持:该模型支持11种非洲语言,包括阿法尔奥罗莫语(也称为奥罗莫语)、阿姆哈拉语、加胡扎语(一种包含基尼亚卢旺达语和基隆迪语的混合语言)、豪萨语、伊博语、尼日利亚皮钦语、索马里语、斯瓦希里语、提格雷尼亚语和约鲁巴语。
- 参数规模:模型拥有约9700万个参数,包含4层、6个注意力头、768个隐藏单元和3072的前馈尺寸。
- 下游性能:在文本分类和命名实体识别等下游任务中,该模型在多种非洲语言上取得了有竞争力的性能,甚至在一些未进行预训练的语言上也表现出色。
📦 安装指南
文档未提及具体安装步骤,可参考Hugging Face Transformers库的安装方法来使用此模型。
💻 使用示例
基础用法
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> model = AutoModelForTokenClassification.from_pretrained("castorini/afriberta_small")
>>> tokenizer = AutoTokenizer.from_pretrained("castorini/afriberta_small")
>>> tokenizer.model_max_length = 512
📚 详细文档
模型描述
AfriBERTa small是一个预训练的多语言语言模型,拥有约9700万个参数。该模型有4层、6个注意力头、768个隐藏单元和3072的前馈尺寸。它在11种非洲语言上进行了预训练,包括阿法尔奥罗莫语(也称为奥罗莫语)、阿姆哈拉语、加胡扎语(一种包含基尼亚卢旺达语和基隆迪语的混合语言)、豪萨语、伊博语、尼日利亚皮钦语、索马里语、斯瓦希里语、提格雷尼亚语和约鲁巴语。该模型在多种非洲语言的文本分类和命名实体识别等下游任务中表现出了有竞争力的性能,甚至在一些未进行预训练的语言上也表现出色。
预期用途和限制
如何使用
你可以使用Transformers库将此模型应用于任何下游任务。例如,假设我们要在令牌分类任务上微调此模型,可按上述代码示例操作。
限制和偏差
- 训练数据集的局限性:该模型可能受其训练数据集的限制,这些数据集主要来自特定时间段的新闻文章,因此可能无法很好地泛化。
- 数据量不足:该模型在非常少的数据(少于1GB)上进行训练,因此可能没有足够的数据来学习非常复杂的语言关系。
训练数据
该模型在来自BBC新闻网站和Common Crawl的数据集聚合上进行训练。
训练过程
有关训练过程的信息,请参考AfriBERTa 论文 或 仓库。
BibTeX引用和引用信息
@inproceedings{ogueji-etal-2021-small,
title = "Small Data? No Problem! Exploring the Viability of Pretrained Multilingual Language Models for Low-resourced Languages",
author = "Ogueji, Kelechi and
Zhu, Yuxin and
Lin, Jimmy",
booktitle = "Proceedings of the 1st Workshop on Multilingual Representation Learning",
month = nov,
year = "2021",
address = "Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.mrl-1.11",
pages = "116--126",
}
🔧 技术细节
AfriBERTa small模型具有特定的架构参数,包括4层、6个注意力头、768个隐藏单元和3072的前馈尺寸。这些参数的设置使得模型能够在多种非洲语言上进行有效的预训练和下游任务处理。
📄 许可证
文档未提及许可证相关信息。
📋 信息表格
属性 |
详情 |
模型类型 |
预训练的多语言语言模型 |
训练数据 |
来自BBC新闻网站和Common Crawl的数据集聚合 |
📌 提示信息
⚠️ 重要提示
该模型可能受其训练数据集的限制,这些数据集主要来自特定时间段的新闻文章,因此可能无法很好地泛化。同时,该模型在非常少的数据(少于1GB)上进行训练,可能没有足够的数据来学习非常复杂的语言关系。
💡 使用建议
在使用该模型时,可根据具体任务和数据情况进行微调,以获得更好的性能。同时,可参考AfriBERTa的论文和仓库获取更多关于训练过程的信息。