🚀 afriberta_small
AfriBERTa small是一個預訓練的多語言語言模型,擁有約9700萬個參數。它能夠在文本分類和命名實體識別等下游任務中,為多種非洲語言提供具有競爭力的性能。
🚀 快速開始
你可以使用Transformers庫將此模型應用於任何下游任務。例如,假設我們要在令牌分類任務上微調此模型,可按以下步驟操作:
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> model = AutoModelForTokenClassification.from_pretrained("castorini/afriberta_small")
>>> tokenizer = AutoTokenizer.from_pretrained("castorini/afriberta_small")
>>> tokenizer.model_max_length = 512
✨ 主要特性
- 多語言支持:該模型支持11種非洲語言,包括阿法爾奧羅莫語(也稱為奧羅莫語)、阿姆哈拉語、加胡扎語(一種包含基尼亞盧旺達語和基隆迪語的混合語言)、豪薩語、伊博語、尼日利亞皮欽語、索馬里語、斯瓦希里語、提格雷尼亞語和約魯巴語。
- 參數規模:模型擁有約9700萬個參數,包含4層、6個注意力頭、768個隱藏單元和3072的前饋尺寸。
- 下游性能:在文本分類和命名實體識別等下游任務中,該模型在多種非洲語言上取得了有競爭力的性能,甚至在一些未進行預訓練的語言上也表現出色。
📦 安裝指南
文檔未提及具體安裝步驟,可參考Hugging Face Transformers庫的安裝方法來使用此模型。
💻 使用示例
基礎用法
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> model = AutoModelForTokenClassification.from_pretrained("castorini/afriberta_small")
>>> tokenizer = AutoTokenizer.from_pretrained("castorini/afriberta_small")
>>> tokenizer.model_max_length = 512
📚 詳細文檔
模型描述
AfriBERTa small是一個預訓練的多語言語言模型,擁有約9700萬個參數。該模型有4層、6個注意力頭、768個隱藏單元和3072的前饋尺寸。它在11種非洲語言上進行了預訓練,包括阿法爾奧羅莫語(也稱為奧羅莫語)、阿姆哈拉語、加胡扎語(一種包含基尼亞盧旺達語和基隆迪語的混合語言)、豪薩語、伊博語、尼日利亞皮欽語、索馬里語、斯瓦希里語、提格雷尼亞語和約魯巴語。該模型在多種非洲語言的文本分類和命名實體識別等下游任務中表現出了有競爭力的性能,甚至在一些未進行預訓練的語言上也表現出色。
預期用途和限制
如何使用
你可以使用Transformers庫將此模型應用於任何下游任務。例如,假設我們要在令牌分類任務上微調此模型,可按上述代碼示例操作。
限制和偏差
- 訓練數據集的侷限性:該模型可能受其訓練數據集的限制,這些數據集主要來自特定時間段的新聞文章,因此可能無法很好地泛化。
- 數據量不足:該模型在非常少的數據(少於1GB)上進行訓練,因此可能沒有足夠的數據來學習非常複雜的語言關係。
訓練數據
該模型在來自BBC新聞網站和Common Crawl的數據集聚合上進行訓練。
訓練過程
有關訓練過程的信息,請參考AfriBERTa 論文 或 倉庫。
BibTeX引用和引用信息
@inproceedings{ogueji-etal-2021-small,
title = "Small Data? No Problem! Exploring the Viability of Pretrained Multilingual Language Models for Low-resourced Languages",
author = "Ogueji, Kelechi and
Zhu, Yuxin and
Lin, Jimmy",
booktitle = "Proceedings of the 1st Workshop on Multilingual Representation Learning",
month = nov,
year = "2021",
address = "Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.mrl-1.11",
pages = "116--126",
}
🔧 技術細節
AfriBERTa small模型具有特定的架構參數,包括4層、6個注意力頭、768個隱藏單元和3072的前饋尺寸。這些參數的設置使得模型能夠在多種非洲語言上進行有效的預訓練和下游任務處理。
📄 許可證
文檔未提及許可證相關信息。
📋 信息表格
屬性 |
詳情 |
模型類型 |
預訓練的多語言語言模型 |
訓練數據 |
來自BBC新聞網站和Common Crawl的數據集聚合 |
📌 提示信息
⚠️ 重要提示
該模型可能受其訓練數據集的限制,這些數據集主要來自特定時間段的新聞文章,因此可能無法很好地泛化。同時,該模型在非常少的數據(少於1GB)上進行訓練,可能沒有足夠的數據來學習非常複雜的語言關係。
💡 使用建議
在使用該模型時,可根據具體任務和數據情況進行微調,以獲得更好的性能。同時,可參考AfriBERTa的論文和倉庫獲取更多關於訓練過程的信息。