XLMR - MaCoCu - is開源語言模型，依託冰島語預訓練助力語言理解與應用

首頁

XLMR MaCoCu Is

由MaCoCu開發

XLMR-MaCoCu-is是基於冰島語文本大規模預訓練的語言模型，通過繼續訓練XLM-RoBERTa-large模型構建，隸屬於MaCoCu項目。

大型語言模型其他#冰島語NLP #多任務微調 #大規模預訓練

下載量 27

發布時間 : 8/11/2022

模型概述

該模型主要用於冰島語的自然語言處理任務，如詞性標註、命名實體識別和常識推理等。

模型特點

大規模冰島語預訓練

使用4.4GB冰島語文本（6.88億詞元）進行訓練，專注於冰島語的自然語言處理任務。

多任務性能優越

在UPOS、XPOS、NER和COPA等多個基準測試中表現優於同類模型。

基於XLM-RoBERTa-large

繼承了XLM-RoBERTa-large的強大架構和詞彙表，針對冰島語進行了優化。

模型能力

詞性標註

命名實體識別

常識推理

文本理解

使用案例

語言學分析

詞性標註

對冰島語文本進行詞性標註

在UPOS測試集上達到97.0的準確率

命名實體識別

識別冰島語文本中的命名實體

在NER測試集上達到93.2的F1分數

常識推理

COPA任務

完成冰島語的常識推理任務

在COPA測試集上達到59.6的準確率

🚀 XLMR-MaCoCu-is冰島語預訓練語言模型

XLMR-MaCoCu-is 是一個基於冰島語文本訓練的大型預訓練語言模型。它在 XLM-RoBERTa-large 模型基礎上繼續訓練得到，是 MaCoCu 項目的一部分，僅使用該項目期間爬取的數據。主要開發者是來自格羅寧根大學的 Rik van Noord。

🚀 快速開始

模型使用示例

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-is")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-is") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-is") # Tensorflow

✨ 主要特性

基於已有模型擴展：在 XLM-RoBERTa-large 模型基礎上繼續訓練，繼承了其優秀的語言理解能力。
特定語料訓練：僅使用 MaCoCu 項目期間爬取的冰島語數據進行訓練，更適配冰島語場景。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 transformers 庫的安裝方法。

📚 詳細文檔

模型描述

XLMR-MaCoCu-is 在 4.4GB 的冰島語文本（相當於 6.88 億個標記）上進行訓練，訓練步數為 75000 步，批量大小為 1024。它使用與原始 XLMR-large 模型相同的詞彙表。訓練和微調過程的詳細信息可在我們的 Github 倉庫中查看。

數據說明

訓練時使用了單語冰島語 MaCoCu 語料庫中的所有冰島語數據。去重後，共有 4.4GB 的文本，相當於 6.88 億個標記。

基準測試性能

我們在 XPOS、UPOS、NER 和 COPA 基準測試中測試了 XLMR-MaCoCu-is 的性能。

數據來源：
- UPOS 和 XPOS 使用 Universal Dependencies 項目的數據。
- NER 使用 MIM-GOLD-NER 數據集。
- COPA 使用谷歌翻譯自動翻譯的英語數據集。
對比模型：與多語言模型 XLMR-base 和 XLMR-large，以及單語 IceBERT 模型進行對比。
測試結果： | | UPOS | UPOS | XPOS | XPOS | NER | NER | COPA | |--------------------|:--------:|:--------:|:--------:|:--------:|---------|----------| ----------| | | Dev | Test | Dev | Test | Dev | Test | Test | | XLM-R-base | 96.8 | 96.5 | 94.6 | 94.3 | 85.3 | 89.7 | 55.2 | | XLM-R-large | 97.0 | 96.7 | 94.9 | 94.7 | 88.5 | 91.7 | 54.3 | | IceBERT | 96.4 | 96.0 | 94.0 | 93.7 | 83.8 | 89.7 | 54.6 | | XLMR-MaCoCu-is | 97.3 | 97.0 | 95.4 | 95.1 | 90.8 | 93.2 | 59.6 |

致謝

本研究得到了谷歌 TPU 研究雲（TRC）的 Cloud TPU 支持。作者獲得了歐盟連接歐洲設施 2014 - 2020 - CEF 電信的資助，資助協議編號為 INEA/CEF/ICT/A2020/2278341（MaCoCu）。

引用信息

如果您使用此模型，請引用以下論文：

@inproceedings{non-etal-2022-macocu,
    title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
    author = "Ba{\~n}{\'o}n, Marta  and
      Espl{\`a}-Gomis, Miquel  and
      Forcada, Mikel L.  and
      Garc{\'\i}a-Romero, Cristian  and
      Kuzman, Taja  and
      Ljube{\v{s}}i{\'c}, Nikola  and
      van Noord, Rik  and
      Sempere, Leopoldo Pla  and
      Ram{\'\i}rez-S{\'a}nchez, Gema  and
      Rupnik, Peter  and
      Suchomel, V{\'\i}t  and
      Toral, Antonio  and
      van der Werff, Tobias  and
      Zaragoza, Jaume",
    booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
    month = jun,
    year = "2022",
    address = "Ghent, Belgium",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2022.eamt-1.41",
    pages = "303--304"
}