xlm-mlm-17-1280開源跨語言模型 - 支持17種語言文本處理應用

首頁

Xlm Mlm 17 1280

由FacebookAI開發

XLM模型是基於17種語言文本訓練的跨語言預訓練模型，採用掩碼語言建模(MLM)目標

大型語言模型

Transformers

支持多種語言#多語言預訓練 #跨語言理解 #掩碼語言建模

下載量 201

發布時間 : 3/2/2022

模型概述

該模型是通過掩碼語言建模目標預訓練的Transformer模型，支持17種語言的跨語言理解任務

模型特點

多語言支持

支持17種語言的跨語言理解任務

大規模預訓練

基於大規模多語言語料庫進行預訓練

Transformer架構

採用16層Transformer架構，具有1280個隱藏狀態

模型能力

跨語言文本理解

掩碼語言建模

多語言文本表示

使用案例

自然語言處理

跨語言文本分類

在XNLI等跨語言分類任務上應用

在英語(84.8)、西班牙語(79.4)、德語(76.2)、阿拉伯語(71.5)和中文(75)上取得良好準確率

多語言文本表示

為下游NLP任務生成多語言文本表示

🚀 xlm-mlm-17-1280

xlm-mlm-17-1280 是一個多語言預訓練語言模型，基於 XLM 架構，在 17 種語言的文本數據上進行訓練，可用於跨語言的自然語言處理任務。

🚀 快速開始

若要了解如何使用該模型，請參考關聯 GitHub 倉庫中的 ipython 筆記本示例。

✨ 主要特性

模型詳情

模型描述：xlm-mlm-17-1280 是 XLM 模型，由 Guillaume Lample 和 Alexis Conneau 在論文 Cross-lingual Language Model Pretraining 中提出，在 17 種語言的文本上進行訓練。該模型是一個基於掩碼語言建模（MLM）目標進行預訓練的 Transformer 模型。
模型信息 | 屬性 | 詳情 | |------|------| | 開發者 | 見關聯論文和 GitHub 倉庫 | | 模型類型 | 語言模型 | | 支持語言 | 17 種語言，完整列表見 GitHub 倉庫 | | 許可證 | CC-BY-NC-4.0 | | 相關模型 | xlm-mlm-17-1280 | | 更多信息資源 | 關聯論文、GitHub 倉庫、Hugging Face 多語言推理模型文檔 |

用途

直接用途：該模型可用於掩碼語言建模任務。
下游用途：若想了解更多關於此任務及潛在的下游應用，請參考 Hugging Face 的填充掩碼文檔和 Hugging Face 多語言推理模型文檔，也可查看關聯論文。
禁止用途：該模型不得用於故意為人們創造敵對或排斥性的環境。

偏差、風險和侷限性

大量研究探討了語言模型的偏差和公平性問題（例如，Sheng 等人 (2021) 和 Bender 等人 (2021)）。

建議：直接用戶和下游用戶都應瞭解該模型的風險、偏差和侷限性。

訓練

此模型是在 17 種語言的文本上訓練的 XLM 模型，預處理包括分詞和字節對編碼。關於訓練數據和訓練過程的更多詳細信息，請參考 GitHub 倉庫和關聯論文。 Conneau 等人 (2020) 報告稱，該模型有 16 層，1280 個隱藏狀態，16 個注意力頭，前饋層維度為 1520。詞彙表大小為 200k，總參數數量為 5.7 億（見表 7）。

評估

測試數據、因素和指標：模型開發者使用測試準確率指標，在 XNLI 跨語言分類任務上對模型進行了評估（關於 XNLI 的更多詳細信息，請參考 XNLI 數據卡片）。關於測試數據、因素和指標的更多詳細信息，請參考 GitHub 倉庫。
結果：在 XNLI 跨語言分類任務中，xlm-mlm-17-1280 在英語（en）、西班牙語（es）、德語（de）、阿拉伯語（ar）和中文（zh）上的測試準確率如下： | 語言 | 英語（en） | 西班牙語（es） | 德語（de） | 阿拉伯語（ar） | 中文（zh） | |------|------|------|------|------|------| | 準確率 | 84.8 | 79.4 | 76.2 | 71.5 | 75 |

更多詳細信息請參考 GitHub 倉庫。

環境影響

可使用 Lacoste 等人 (2019) 提出的機器學習影響計算器來估算碳排放。

硬件類型：需要更多信息
使用時長：需要更多信息
雲服務提供商：需要更多信息
計算區域：需要更多信息
碳排放：需要更多信息

技術規格

Conneau 等人 (2020) 報告稱，該模型有 16 層，1280 個隱藏狀態，16 個注意力頭，前饋層維度為 1520。詞彙表大小為 200k，總參數數量為 5.7 億（見表 7）。

引用

BibTeX

@article{lample2019cross,
  title={Cross-lingual language model pretraining},
  author={Lample, Guillaume and Conneau, Alexis},
  journal={arXiv preprint arXiv:1901.07291},
  year={2019}
}