🚀 afriberta_large
AfriBERTa large是一個預訓練的多語言語言模型,擁有約1.26億個參數。該模型可用於多種非洲語言的文本分類和命名實體識別等下游任務,展現出了具有競爭力的性能。
🚀 快速開始
你可以使用Transformers庫將此模型用於任何下游任務。例如,假設我們想在一個標記分類任務上對該模型進行微調,可以按以下步驟操作:
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> model = AutoModelForTokenClassification.from_pretrained("castorini/afriberta_large")
>>> tokenizer = AutoTokenizer.from_pretrained("castorini/afriberta_large")
>>> tokenizer.model_max_length = 512
✨ 主要特性
- AfriBERTa large是一個擁有約1.26億參數的預訓練多語言語言模型。
- 該模型有10層、6個注意力頭、768個隱藏單元和3072的前饋大小。
- 在11種非洲語言上進行了預訓練,包括阿法爾奧羅莫語、阿姆哈拉語、加胡扎語、豪薩語、伊博語、尼日利亞皮欽語、索馬里語、斯瓦希里語、提格雷尼亞語和約魯巴語。
- 在多種非洲語言的文本分類和命名實體識別等下游任務中展現出了具有競爭力的性能,甚至在一些未進行預訓練的語言上也是如此。
📚 詳細文檔
預期用途與限制
使用方法
你可以使用Transformers庫將此模型用於任何下游任務。上述快速開始部分已給出了在標記分類任務上微調該模型的示例。
限制和偏差
- 該模型可能受其訓練數據集的限制,這些數據主要來自特定時間段的新聞文章,因此可能泛化能力不佳。
- 該模型在非常少的數據(少於1GB)上進行訓練,可能沒有見過足夠的數據來學習非常複雜的語言關係。
訓練數據
該模型在來自BBC新聞網站和Common Crawl的數據集聚合上進行訓練。
訓練過程
有關訓練過程的信息,請參考AfriBERTa 論文 或 倉庫。
📄 許可證
本項目採用MIT許可證。
BibTeX引用和引用信息
@inproceedings{ogueji-etal-2021-small,
title = "Small Data? No Problem! Exploring the Viability of Pretrained Multilingual Language Models for Low-resourced Languages",
author = "Ogueji, Kelechi and
Zhu, Yuxin and
Lin, Jimmy",
booktitle = "Proceedings of the 1st Workshop on Multilingual Representation Learning",
month = nov,
year = "2021",
address = "Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.mrl-1.11",
pages = "116--126",
}
支持語言信息
屬性 |
詳情 |
支持語言 |
奧羅莫語、阿姆哈拉語、盧旺達-基隆迪混合語、基隆迪語、豪薩語、伊博語、索馬里語、斯瓦希里語、提格雷尼亞語、約魯巴語、尼日利亞皮欽語、多語言 |
訓練數據集 |
castorini/afriberta-corpus |