multilingual - albert - base - cased - 128k開源多語言模型

Home

Multilingual Albert Base Cased 128k

Developed by cservan

基於掩碼語言建模(MLM)目標預訓練的多語言ALBERT模型，支持60+種語言，具有參數共享的輕量級架構

大型語言模型

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #多語言預訓練 #共享權重架構 #維基百科語料

Downloads 277

Release Time : 12/20/2023

Model Overview

這是一個區分大小寫的多語言ALBERT模型，通過自監督方式在維基百科文本上預訓練，適用於下游任務的微調。模型採用Transformer層權重共享機制，具有較小的內存佔用。

Model Features

多語言支持

支持60多種語言的處理，包括主要歐洲和亞洲語言

參數共享架構

採用ALBERT特有的Transformer層權重共享機制，顯著減少模型參數數量

區分大小寫

與標準ALBERT不同，此模型能夠區分單詞的大小寫形式

高效預訓練

結合掩碼語言建模(MLM)和句子順序預測(SOP)兩種預訓練目標

Model Capabilities

多語言文本理解

句子順序預測

掩碼詞預測

下游任務微調

Use Cases

自然語言處理

槽填充任務

用於對話系統中的信息提取任務

在MultiATIS++數據集上達到89.14的準確率

文本分類

用於多語言文本分類任務

在SNIPS數據集上達到96.84的準確率

命名實體識別

用於識別文本中的命名實體

在CoNLL2003數據集上達到88.27的F1分數

🚀 mALBERT Base Cased 128k

mALBERT Base Cased 128k 是一個預訓練的多語言語言模型，採用掩碼語言建模（MLM）目標進行訓練。該模型與其他 ALBERT 模型不同，它區分大小寫，能夠區分“french”和“French”。詳細信息可查看此處。

✨ 主要特性

多語言支持：支持法語（fr）、英語（en）、德語（de）等多種語言。
大小寫敏感：與其他 ALBERT 模型不同，該模型區分大小寫。
自監督學習：通過自監督方式在 16GB 的法語維基百科文本上進行預訓練。
雙目標預訓練：採用掩碼語言建模（MLM）和句子順序預測（SOP）兩個目標進行預訓練。
參數共享：模型在 Transformer 層之間共享參數，減少了內存佔用。

📦 安裝指南

文檔未提供具體安裝步驟，跳過此章節。

💻 使用示例

基礎用法

以下是在 PyTorch 中使用該模型提取給定文本特徵的示例：

from transformers import AlbertTokenizer, AlbertModel
tokenizer = AlbertTokenizer.from_pretrained('cservan/multilingual-albert-base-cased-128k')
model = AlbertModel.from_pretrained("cservan/multilingual-albert-base-cased-128k")
text = "Remplacez-moi par le texte en français que vous souhaitez."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

高級用法

以下是在 TensorFlow 中使用該模型的示例：

from transformers import AlbertTokenizer, TFAlbertModel
tokenizer = AlbertTokenizer.from_pretrained('cservan/multilingual-albert-base-cased-128k')
model = TFAlbertModel.from_pretrained("cservan/multilingual-albert-base-cased-128k")
text = "Remplacez-moi par le texte en français que vous souhaitez."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 詳細文檔

模型描述

mALBERT 是一個基於 Transformer 的模型，以自監督方式在 16GB 的法語維基百科文本上進行預訓練。這意味著它僅在原始文本上進行訓練，無需人工標註，通過自動過程從這些文本中生成輸入和標籤。具體來說，它通過兩個目標進行預訓練：

掩碼語言建模（MLM）：給定一個句子，模型隨機掩蓋輸入中 15% 的單詞，然後將整個掩蓋後的句子輸入模型，預測被掩蓋的單詞。這與傳統的循環神經網絡（RNN）不同，RNN 通常逐個處理單詞，也與自迴歸模型（如 GPT）不同，GPT 會在內部掩蓋未來的標記。這種方法允許模型學習句子的雙向表示。
句子順序預測（SOP）：mALBERT 使用基於預測兩個連續文本片段順序的預訓練損失。

通過這種方式，模型學習到語言的內部表示，可用於提取對下游任務有用的特徵。例如，如果有一個標註好的句子數據集，可以使用 mALBERT 模型生成的特徵作為輸入，訓練一個標準的分類器。

mALBERT 的特殊之處在於它在 Transformer 層之間共享參數。因此，所有層具有相同的權重。使用重複層可以減少內存佔用，但計算成本與具有相同隱藏層數的 BERT 架構相似，因為它必須遍歷相同數量的（重複）層。

這是基礎模型的第二個版本，模型配置如下：

屬性	詳情
層數	12 個重複層
嵌入維度	128
隱藏維度	768
注意力頭數	12
參數數量	11M
詞彙表大小	128k

預期用途和限制

可以使用原始模型進行掩碼語言建模或下一句預測，但它主要用於在下游任務上進行微調。可查看模型中心以查找針對感興趣任務進行微調的版本。

請注意，該模型主要旨在用於需要使用整個句子（可能被掩蓋）進行決策的任務，如序列分類、標記分類或問答。對於文本生成等任務，建議使用 GPT2 等模型。

訓練數據

mALBERT 模型在 13GB 的多語言維基百科文本（不包括列表、表格和標題）上進行預訓練。

訓練過程

預處理

文本先進行小寫處理，然後使用 SentencePiece 進行分詞，詞彙表大小為 128,000。模型的輸入格式如下：

[CLS] Sentence A [SEP] Sentence B [SEP]

訓練

mALBERT 的訓練過程遵循 BERT 的設置。

每個句子的掩碼過程細節如下：

15% 的標記被掩蓋。
80% 的情況下，被掩蓋的標記被替換為 [MASK]。
10% 的情況下，被掩蓋的標記被替換為一個隨機標記（與被替換的標記不同）。
10% 的情況下，被掩蓋的標記保持不變。

工具

用於預訓練模型的工具可在此處找到。

評估結果

在下游任務上進行微調時，ALBERT 模型取得了以下結果：

槽填充任務

模型 \ 任務	MMNLU	MultiATIS++	CoNLL2003	MultiCoNER	SNIPS	MEDIA
EnALBERT	N/A	N/A	89.67 (0.34)	42.36 (0.22)	95.95 (0.13)	N/A
FrALBERT	N/A	N/A	N/A	N/A	N/A	81.76 (0.59)
mALBERT - 128k	65.81 (0.11)	89.14 (0.15)	88.27 (0.24)	46.01 (0.18)	91.60 (0.31)	83.15 (0.38)
mALBERT - 64k	65.29 (0.14)	88.88 (0.14)	86.44 (0.37)	44.70 (0.27)	90.84 (0.47)	82.30 (0.19)
mALBERT - 32k	64.83 (0.22)	88.60 (0.27)	84.96 (0.41)	44.13 (0.39)	89.89 (0.68)	82.04 (0.28)

分類任務

模型 \ 任務	MMNLU	MultiATIS++	SNIPS	SST2
mALBERT - 128k	72.35 (0.09)	90.58 (0.98)	96.84 (0.49)	34.66 (1.46)
mALBERT - 64k	71.26 (0.11)	90.97 (0.70)	96.53 (0.44)	34.64 (1.02)
mALBERT - 32k	70.76 (0.11)	90.55 (0.98)	96.49 (0.45)	34.18 (1.64)

引用信息

@inproceedings{servan2024mALBERT,
  author    = {Christophe Servan and
               Sahar Ghannay and
               Sophie Rosset},
  booktitle = {the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
  title     = {{mALBERT: Is a Compact Multilingual BERT Model Still Worth It?}},
  year      = {2024},
  address   = {Torino, Italy},
  month     = may,
}

論文鏈接：PDF