🚀 afro-xlmr-large-76L
AfroXLMR-large-76L 是通过对扩展的 XLM-R-large 模型进行掩码语言模型(MLM)调整而创建的,该模型适用于非洲广泛使用的 76 种语言,其中包括 4 种高资源语言。它能够在多语言环境下提供强大的语言处理能力,为非洲地区的语言技术发展提供支持。
✨ 主要特性
- 多语言支持:支持 76 种语言,覆盖了非洲大部分地区的主要语言和方言。
- 数据丰富:预训练语料库包含 mC4、维基百科和 OPUS 数据的混合。
📚 详细文档
预训练语料库
预训练语料库是 mC4、维基百科和 OPUS 数据的混合。
支持的语言
该模型支持 76 种语言,具体如下:
- 英语 (eng)
- 阿姆哈拉语 (amh)
- 阿拉伯语 (ara)
- 索马里语 (som)
- 斯瓦希里语 (swa)
- 葡萄牙语 (por)
- 南非荷兰语 (afr)
- 法语 (fra)
- 祖鲁语 (zul)
- 马尔加什语 (mlg)
- 豪萨语 (hau)
- 绍纳语 (sna)
- 埃及阿拉伯语 (arz)
- 奇切瓦语 (nya)
- 伊博语 (ibo)
- 科萨语 (xho)
- 约鲁巴语 (yor)
- 塞索托语 (sot)
- 卢旺达语 (kin)
- 提格雷尼亚语 (tir)
- 聪加语 (tso)
- 奥罗莫语 (orm)
- 隆迪语 (run)
- 北索托语 (nso)
- 埃维语 (ewe)
- 林加拉语 (lin)
- 契维语 (twi)
- 尼日利亚皮钦语 (pcm)
- 加语 (gaa)
- 洛齐语 (loz)
- 卢干达语 (lug)
- 贡语 (guw)
- 本巴语 (bem)
- 埃菲克语 (efi)
- 卢瓦勒语 (lue)
- 卢巴 - 卢阿语 (lua)
- 通加语 (toi)
- 文达语 (ven)
- 通布卡语 (tum)
- 泰泰拉语 (tll)
- 伊索科语 (iso)
- 康德语 (kqn)
- 赞德语 (zne)
- 温本杜语 (umb)
- 莫西语 (mos)
- 提夫语 (tiv)
- 加丹加卢巴语 (lub)
- 富拉语 (fuv)
- 圣萨尔瓦多刚果语 (kwy)
- 巴乌莱语 (bci)
- 鲁恩德语 (rnd)
- 卢奥语 (luo)
- 沃莱塔语 (wal)
- 斯威士语 (ssw)
- 隆达语 (lun)
- 沃洛夫语 (wol)
- 尼亚内卡语 (nyk)
- 夸尼亚马语 (kua)
- 基库尤语 (kik)
- 丰语 (fon)
- 班巴拉语 (bam)
- 乔奎语 (cjk)
- 丁卡语 (dik)
- 朱拉语 (dyu)
- 卡比勒语 (kab)
- 坎巴语 (kam)
- 卡比耶语 (kbp)
- 卡努里语 (knc)
- 金本杜语 (kmb)
- 基孔果语 (kon)
- 努埃尔语 (nus)
- 桑戈语 (sag)
- 塔马舍克语 (taq)
- 塔马齐格特语 (tzm)
- 恩戈语 (nqo)
致谢
我们感谢谷歌云通过免费云信用额度为我们提供对 TPU v3 - 8 的访问权限。该模型最初使用 Flax 进行训练,之后转换为 PyTorch 格式。
BibTeX 引用和引用信息
@misc{adelani2023sib200,
title={SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic Classification in 200+ Languages and Dialects},
author={David Ifeoluwa Adelani and Hannah Liu and Xiaoyu Shen and Nikita Vassilyev and Jesujoba O. Alabi and Yanke Mao and Haonan Gao and Annie En-Shiun Lee},
year={2023},
eprint={2309.07445},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
本项目采用 MIT 许可证。