🚀 xlm-mlm-100-1280
xlm-mlm-100-1280是一個基於多語言的預訓練語言模型,在100種語言的維基百科文本上進行訓練,可用於掩碼語言建模等任務。
🚀 快速開始
若要了解如何使用該模型,請參考關聯 GitHub倉庫 中的 ipython筆記本 獲取示例。
✨ 主要特性
- 多語言支持:支持100種語言,具體語言列表可查看 GitHub倉庫。
- 預訓練模型:基於Transformer架構,使用掩碼語言建模(MLM)目標進行預訓練。
📚 詳細文檔
🔍 模型詳情
xlm-mlm-100-1280是XLM模型,由Guillaume Lample和Alexis Conneau在論文 Cross-lingual Language Model Pretraining 中提出,並在100種語言的維基百科文本上進行訓練。該模型是一個使用掩碼語言建模(MLM)目標進行預訓練的Transformer模型。
💡 使用方式
直接使用
該模型是一個語言模型,可用於掩碼語言建模。
下游使用
若要了解更多關於此任務和潛在的下游應用,請參考Hugging Face的 填充掩碼文檔 和 Hugging Face多語言推理模型文檔,也可參考 關聯論文。
超出適用範圍的使用
該模型不應被用於故意為人們創造敵對或排斥性的環境。
⚠️ 偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng等人 (2021) 和 Bender等人 (2021))。
⚠️ 重要提示
直接用戶和下游用戶都應該瞭解該模型的風險、偏差和侷限性。
🏋️ 訓練情況
此模型是在100種語言的維基百科文本上訓練的XLM模型。預處理包括使用字節對編碼(byte - pair - encoding)進行分詞。有關訓練數據和訓練過程的更多詳細信息,請參考 GitHub倉庫 和 關聯論文。
Conneau等人 (2020) 報告稱,該模型有16層,1280個隱藏狀態,16個注意力頭,前饋層的維度為1520。詞彙量大小為200k,總參數數量為5.7億(詳見表7)。
📊 評估情況
測試數據、因素和指標
模型開發者使用測試準確率指標,在XNLI跨語言分類任務上對模型進行了評估(有關XNLI的更多詳細信息,請參閱 XNLI數據卡片)。有關測試數據、因素和指標的更多詳細信息,請參考 GitHub倉庫。
結果
對於xlm - mlm - 100 - 1280,在XNLI跨語言分類任務中,英語(en)、西班牙語(es)、德語(de)、阿拉伯語(ar)、中文(zh)和烏爾都語(ur)的測試準確率如下:
語言 |
英語(en) |
西班牙語(es) |
德語(de) |
阿拉伯語(ar) |
中文(zh) |
烏爾都語(ur) |
準確率 |
83.7 |
76.6 |
73.6 |
67.4 |
71.7 |
62.9 |
更多詳細信息請參考 GitHub倉庫。
🌱 環境影響
可以使用 Lacoste等人 (2019) 提出的 機器學習影響計算器 來估算碳排放。
屬性 |
詳情 |
硬件類型 |
需要更多信息 |
使用時長 |
需要更多信息 |
雲服務提供商 |
需要更多信息 |
計算區域 |
需要更多信息 |
碳排放 |
需要更多信息 |
🔧 技術細節
Conneau等人 (2020) 報告稱,該模型有16層,1280個隱藏狀態,16個注意力頭,前饋層的維度為1520。詞彙量大小為200k,總參數數量為5.7億(詳見表7)。
📖 引用信息
BibTeX格式:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA格式:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
✍️ 模型卡片作者
此模型卡片由Hugging Face團隊編寫。
📄 許可證
本模型採用CC - BY - NC - 4.0許可證。