🚀 afro-xlmr-large-76L
AfroXLMR-large-76L 是通過對擴展的 XLM-R-large 模型進行掩碼語言模型(MLM)調整而創建的,該模型適用於非洲廣泛使用的 76 種語言,其中包括 4 種高資源語言。它能夠在多語言環境下提供強大的語言處理能力,為非洲地區的語言技術發展提供支持。
✨ 主要特性
- 多語言支持:支持 76 種語言,覆蓋了非洲大部分地區的主要語言和方言。
- 數據豐富:預訓練語料庫包含 mC4、維基百科和 OPUS 數據的混合。
📚 詳細文檔
預訓練語料庫
預訓練語料庫是 mC4、維基百科和 OPUS 數據的混合。
支持的語言
該模型支持 76 種語言,具體如下:
- 英語 (eng)
- 阿姆哈拉語 (amh)
- 阿拉伯語 (ara)
- 索馬里語 (som)
- 斯瓦希里語 (swa)
- 葡萄牙語 (por)
- 南非荷蘭語 (afr)
- 法語 (fra)
- 祖魯語 (zul)
- 馬爾加什語 (mlg)
- 豪薩語 (hau)
- 紹納語 (sna)
- 埃及阿拉伯語 (arz)
- 奇切瓦語 (nya)
- 伊博語 (ibo)
- 科薩語 (xho)
- 約魯巴語 (yor)
- 塞索托語 (sot)
- 盧旺達語 (kin)
- 提格雷尼亞語 (tir)
- 聰加語 (tso)
- 奧羅莫語 (orm)
- 隆迪語 (run)
- 北索托語 (nso)
- 埃維語 (ewe)
- 林加拉語 (lin)
- 契維語 (twi)
- 尼日利亞皮欽語 (pcm)
- 加語 (gaa)
- 洛齊語 (loz)
- 盧幹達語 (lug)
- 貢語 (guw)
- 本巴語 (bem)
- 埃菲克語 (efi)
- 盧瓦勒語 (lue)
- 盧巴 - 盧阿語 (lua)
- 通加語 (toi)
- 文達語 (ven)
- 通布卡語 (tum)
- 泰泰拉語 (tll)
- 伊索科語 (iso)
- 康德語 (kqn)
- 贊德語 (zne)
- 溫本杜語 (umb)
- 莫西語 (mos)
- 提夫語 (tiv)
- 加丹加盧巴語 (lub)
- 富拉語 (fuv)
- 聖薩爾瓦多剛果語 (kwy)
- 巴烏萊語 (bci)
- 魯恩德語 (rnd)
- 盧奧語 (luo)
- 沃萊塔語 (wal)
- 斯威士語 (ssw)
- 隆達語 (lun)
- 沃洛夫語 (wol)
- 尼亞內卡語 (nyk)
- 誇尼亞馬語 (kua)
- 基庫尤語 (kik)
- 豐語 (fon)
- 班巴拉語 (bam)
- 喬奎語 (cjk)
- 丁卡語 (dik)
- 朱拉語 (dyu)
- 卡比勒語 (kab)
- 坎巴語 (kam)
- 卡比耶語 (kbp)
- 卡努里語 (knc)
- 金本杜語 (kmb)
- 基孔果語 (kon)
- 努埃爾語 (nus)
- 桑戈語 (sag)
- 塔馬舍克語 (taq)
- 塔馬齊格特語 (tzm)
- 恩戈語 (nqo)
致謝
我們感謝谷歌雲通過免費雲信用額度為我們提供對 TPU v3 - 8 的訪問權限。該模型最初使用 Flax 進行訓練,之後轉換為 PyTorch 格式。
BibTeX 引用和引用信息
@misc{adelani2023sib200,
title={SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic Classification in 200+ Languages and Dialects},
author={David Ifeoluwa Adelani and Hannah Liu and Xiaoyu Shen and Nikita Vassilyev and Jesujoba O. Alabi and Yanke Mao and Haonan Gao and Annie En-Shiun Lee},
year={2023},
eprint={2309.07445},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本項目採用 MIT 許可證。