🚀 afriberta_base
AfriBERTa base是一个预训练的多语言语言模型,可用于多种非洲语言的文本分类和命名实体识别等下游任务
🚀 快速开始
你可以使用Transformers库将此模型用于任何下游任务。例如,假设我们想在一个标记分类任务上微调这个模型,可以按以下步骤操作:
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> model = AutoModelForTokenClassification.from_pretrained("castorini/afriberta_base")
>>> tokenizer = AutoTokenizer.from_pretrained("castorini/afriberta_base")
>>> tokenizer.model_max_length = 512
✨ 主要特性
- AfriBERTa base是一个预训练的多语言语言模型,拥有约1.11亿个参数。
- 该模型有8层、6个注意力头、768个隐藏单元和3072的前馈大小。
- 该模型在11种非洲语言上进行了预训练,包括阿法尔奥罗莫语(也称为奥罗莫语)、阿姆哈拉语、加胡扎语(一种包含基尼亚卢旺达语和基隆迪语的混合语言)、豪萨语、伊博语、尼日利亚皮钦语、索马里语、斯瓦希里语、提格雷尼亚语和约鲁巴语。
- 该模型在几种非洲语言的文本分类和命名实体识别等下游任务中表现出了有竞争力的性能,包括一些它未进行预训练的语言。
📚 详细文档
预期用途和局限性
使用方法
你可以使用Transformers库将此模型用于任何下游任务。上述快速开始部分已给出了在标记分类任务上的使用示例。
局限性和偏差
- 该模型可能受其训练数据集的限制,这些数据集主要来自特定时间段的新闻文章,因此可能泛化能力不佳。
- 该模型在非常少的数据(少于1GB)上进行训练,因此可能没有足够的数据来学习非常复杂的语言关系。
训练数据
该模型在来自BBC新闻网站和Common Crawl的数据集聚合上进行训练。
训练过程
有关训练过程的信息,请参考AfriBERTa 论文 或 仓库。
BibTeX引用和引用信息
@inproceedings{ogueji-etal-2021-small,
title = "Small Data? No Problem! Exploring the Viability of Pretrained Multilingual Language Models for Low-resourced Languages",
author = "Ogueji, Kelechi and
Zhu, Yuxin and
Lin, Jimmy",
booktitle = "Proceedings of the 1st Workshop on Multilingual Representation Learning",
month = nov,
year = "2021",
address = "Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.mrl-1.11",
pages = "116--126",
}
📄 许可证
文档未提及相关许可证信息。
📦 安装指南
文档未提及相关安装步骤。
🔧 技术细节
文档未提供更详细的技术实现细节。
💻 使用示例
基础用法
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> model = AutoModelForTokenClassification.from_pretrained("castorini/afriberta_base")
>>> tokenizer = AutoTokenizer.from_pretrained("castorini/afriberta_base")
>>> tokenizer.model_max_length = 512
高级用法
文档未提供高级使用场景的代码示例。
📄 语言支持
该模型支持以下语言:
- 奥罗莫语(om)
- 阿姆哈拉语(am)
- 基尼亚卢旺达语(rw)
- 基隆迪语(rn)
- 豪萨语(ha)
- 伊博语(ig)
- 尼日利亚皮钦语(pcm)
- 索马里语(so)
- 斯瓦希里语(sw)
- 提格雷尼亚语(ti)
- 约鲁巴语(yo)
- 多语言(multilingual)
属性 |
详情 |
模型类型 |
预训练多语言语言模型 |
训练数据 |
来自BBC新闻网站和Common Crawl的数据集聚合 |