XLMR-MaCoCu-tr開源語言模型 - 用35GB土語文本訓練賦能土耳其語應用

首頁

XLMR MaCoCu Tr

由MaCoCu開發

XLMR-MaCoCu-tr 是基於土耳其語文本大規模預訓練的語言模型，是MaCoCu項目的一部分，使用35GB土耳其語文本訓練。

大型語言模型其他#土耳其語預訓練 #多任務微調 #大規模語料

下載量 26

發布時間 : 8/11/2022

模型概述

該模型在XLM-RoBERTa-large模型基礎上繼續訓練，專為土耳其語設計，適用於多種自然語言處理任務。

模型特點

大規模土耳其語訓練

使用35GB土耳其語文本（44億詞符）進行訓練，覆蓋廣泛的語言特徵。

基於XLM-RoBERTa-large優化

在XLM-RoBERTa-large基礎上繼續訓練，保持原有詞表，優化土耳其語處理能力。

多任務性能優越

在POS標註、NER和COPA等任務上表現優異，超越同類土耳其語模型。

模型能力

詞性標註（UPOS/XPOS）

命名實體識別（NER）

因果推理（COPA）

土耳其語文本理解

使用案例

自然語言處理

土耳其語文本標註

用於土耳其語文本的詞性標註和命名實體識別。

在Universal Dependencies測試集上達到94.4%的NER準確率。

因果推理

用於土耳其語因果推理任務（COPA）。

在MT測試集上達到60.7%的準確率，優於BERTurk和XLM-R-large。

🚀 XLMR-MaCoCu-tr 土耳其語預訓練語言模型

XLMR-MaCoCu-tr 是一個在土耳其語文本上進行訓練的大型預訓練語言模型。它基於 XLM-RoBERTa-large 模型繼續訓練而來，是 MaCoCu 項目的一部分，僅使用該項目期間爬取的數據。主要開發者是來自格羅寧根大學的 Rik van Noord。

🚀 快速開始

你可以按照以下步驟使用 XLMR-MaCoCu-tr 模型：

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-tr")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr") # Tensorflow

✨ 主要特性

基於大模型繼續訓練：在 XLM-RoBERTa-large 模型基礎上繼續訓練，繼承了其優秀的語言理解能力。
使用特定項目數據：僅使用 MaCoCu 項目期間爬取的土耳其語數據進行訓練，針對性更強。

📦 安裝指南

使用該模型需要安裝 transformers 庫，你可以使用以下命令進行安裝：

pip install transformers

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-tr")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr") # Tensorflow

📚 詳細文檔

訓練數據

訓練時，使用了單語土耳其語 MaCoCu 語料庫中的所有土耳其語數據。經過數據去重後，共得到 35GB 的文本，相當於 44 億個標記。

訓練參數

XLMR-MaCoCu-tr 在 35GB 的土耳其語文本（相當於 44 億個標記）上進行訓練。訓練步數為 70,000 步，批量大小為 1,024。它使用與原始 XLMR-large 模型相同的詞彙表。

訓練和微調流程

訓練和微調流程的詳細描述可在我們的 Github 倉庫中查看。

基準測試性能

我們在 Universal Dependencies 項目的 XPOS、UPOS 和 NER 基準測試中測試了 XLMR-MaCoCu-tr 的性能。對於 COPA 任務，我們在機器翻譯（MT）數據集上進行訓練（詳情見我們的 Github 倉庫），並在類似的 MT 數據集以及 XCOPA 項目的人工翻譯（HT）測試集上進行評估。我們將其性能與多語言模型 XLMR-base 和 XLMR-large，以及單語 BERTurk 模型進行了比較。關於微調流程的詳細信息，你可以查看我們的 Github。

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA	COPA
	Dev	Test	Dev	Test	Dev	Test	Test (MT)	Test (HT)
XLM-R-base	89.0	89.0	90.4	90.6	92.8	92.6	56.0	53.2
XLM-R-large	89.4	89.3	90.8	90.7	94.1	94.1	52.1	50.5
BERTurk	88.2	88.4	89.7	89.6	92.6	92.6	57.0	56.4
XLMR-MaCoCu-tr	89.1	89.4	90.7	90.5	94.4	94.4	60.7	58.5

注：分數是三次運行的平均值，COPA 任務使用 10 次運行的結果。對於 POS/NER 任務，所有模型使用相同的超參數設置；對於 COPA 任務，我們在開發集上優化了每個模型的學習率。

📄 許可證

本項目採用 CC0-1.0 許可證。

🔗 致謝

本研究得到了 Google 的 TPU 研究雲（TRC）的 Cloud TPU 支持。作者獲得了歐盟 2014 - 2020 年連接歐洲設施 - CEF 電信的資助，資助協議編號為 INEA/CEF/ICT/A2020/2278341（MaCoCu）。

📖 引用

如果你使用此模型，請引用以下論文：

@inproceedings{non-etal-2022-macocu,
    title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
    author = "Ba{\~n}{\'o}n, Marta  and
      Espl{\`a}-Gomis, Miquel  and
      Forcada, Mikel L.  and
      Garc{\'\i}a-Romero, Cristian  and
      Kuzman, Taja  and
      Ljube{\v{s}}i{\'c}, Nikola  and
      van Noord, Rik  and
      Sempere, Leopoldo Pla  and
      Ram{\'\i}rez-S{\'a}nchez, Gema  and
      Rupnik, Peter  and
      Suchomel, V{\'\i}t  and
      Toral, Antonio  and
      van der Werff, Tobias  and
      Zaragoza, Jaume",
    booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
    month = jun,
    year = "2022",
    address = "Ghent, Belgium",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2022.eamt-1.41",
    pages = "303--304"
}