🚀 afriberta_base
AfriBERTa base是一個預訓練的多語言語言模型,可用於多種非洲語言的文本分類和命名實體識別等下游任務
🚀 快速開始
你可以使用Transformers庫將此模型用於任何下游任務。例如,假設我們想在一個標記分類任務上微調這個模型,可以按以下步驟操作:
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> model = AutoModelForTokenClassification.from_pretrained("castorini/afriberta_base")
>>> tokenizer = AutoTokenizer.from_pretrained("castorini/afriberta_base")
>>> tokenizer.model_max_length = 512
✨ 主要特性
- AfriBERTa base是一個預訓練的多語言語言模型,擁有約1.11億個參數。
- 該模型有8層、6個注意力頭、768個隱藏單元和3072的前饋大小。
- 該模型在11種非洲語言上進行了預訓練,包括阿法爾奧羅莫語(也稱為奧羅莫語)、阿姆哈拉語、加胡扎語(一種包含基尼亞盧旺達語和基隆迪語的混合語言)、豪薩語、伊博語、尼日利亞皮欽語、索馬里語、斯瓦希里語、提格雷尼亞語和約魯巴語。
- 該模型在幾種非洲語言的文本分類和命名實體識別等下游任務中表現出了有競爭力的性能,包括一些它未進行預訓練的語言。
📚 詳細文檔
預期用途和侷限性
使用方法
你可以使用Transformers庫將此模型用於任何下游任務。上述快速開始部分已給出了在標記分類任務上的使用示例。
侷限性和偏差
- 該模型可能受其訓練數據集的限制,這些數據集主要來自特定時間段的新聞文章,因此可能泛化能力不佳。
- 該模型在非常少的數據(少於1GB)上進行訓練,因此可能沒有足夠的數據來學習非常複雜的語言關係。
訓練數據
該模型在來自BBC新聞網站和Common Crawl的數據集聚合上進行訓練。
訓練過程
有關訓練過程的信息,請參考AfriBERTa 論文 或 倉庫。
BibTeX引用和引用信息
@inproceedings{ogueji-etal-2021-small,
title = "Small Data? No Problem! Exploring the Viability of Pretrained Multilingual Language Models for Low-resourced Languages",
author = "Ogueji, Kelechi and
Zhu, Yuxin and
Lin, Jimmy",
booktitle = "Proceedings of the 1st Workshop on Multilingual Representation Learning",
month = nov,
year = "2021",
address = "Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.mrl-1.11",
pages = "116--126",
}
📄 許可證
文檔未提及相關許可證信息。
📦 安裝指南
文檔未提及相關安裝步驟。
🔧 技術細節
文檔未提供更詳細的技術實現細節。
💻 使用示例
基礎用法
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> model = AutoModelForTokenClassification.from_pretrained("castorini/afriberta_base")
>>> tokenizer = AutoTokenizer.from_pretrained("castorini/afriberta_base")
>>> tokenizer.model_max_length = 512
高級用法
文檔未提供高級使用場景的代碼示例。
📄 語言支持
該模型支持以下語言:
- 奧羅莫語(om)
- 阿姆哈拉語(am)
- 基尼亞盧旺達語(rw)
- 基隆迪語(rn)
- 豪薩語(ha)
- 伊博語(ig)
- 尼日利亞皮欽語(pcm)
- 索馬里語(so)
- 斯瓦希里語(sw)
- 提格雷尼亞語(ti)
- 約魯巴語(yo)
- 多語言(multilingual)
屬性 |
詳情 |
模型類型 |
預訓練多語言語言模型 |
訓練數據 |
來自BBC新聞網站和Common Crawl的數據集聚合 |