multilingual-albert-base-cased-32kオープンソースモデル - 50 以上の言語をサポートする多言語処理の強力なツール

ホーム

Multilingual Albert Base Cased 32k

cservanによって開発

マスク言語モデリングの目的で事前学習された多言語ALBERTモデルで、50種以上の言語をサポートし、大文字小文字を区別します。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語事前学習 #重み共有アーキテクチャ #ウィキペディアコーパス

ダウンロード数 243

リリース時間 : 12/20/2023

モデル概要

このモデルは、自動教師付き学習方式でウィキペディアの多言語テキスト上で事前学習されたtransformersモデルで、主に特徴抽出と下流タスクの微調整に使用されます。ALBERTアーキテクチャを採用し、パラメータ共有の特性を持ち、メモリ使用量を大幅に削減します。

モデル特徴

多言語サポート

50種以上の言語処理をサポートし、主なヨーロッパとアジアの言語を含みます。

パラメータ共有アーキテクチャ

ALBERT特有の層間パラメータ共有メカニズムを採用し、モデルのパラメータ規模を大幅に削減します。

大文字小文字を区別する

従来のALBERTモデルと比較して、大文字小文字の違いを正確に識別できます。

効率的な事前学習

マスク言語モデリングと文順予測の二重目的で最適化されています。

モデル能力

多言語テキスト理解

文の特徴抽出

下流タスクの微調整

マスクトークン予測

使用事例

自然言語処理

スロット埋めタスク

対話システムの情報抽出タスクに使用されます。

MultiATIS++データセットで88.60の正解率を達成しました。

テキスト分類

多言語テキスト分類のアプリケーションです。

MMNLUタスクで70.76の正解率を達成しました。

🚀 mALBERT Base Cased 32k

mALBERT Base Cased 32kは、マスク言語モデリング（MLM）の目的で事前学習された多言語言語モデルです。このモデルに関する詳細はこちらで確認できます。他のALBERTモデルとは異なり、このモデルは大文字と小文字を区別します。例えば、「french」と「French」は異なるものとして認識されます。

🚀 クイックスタート

このモデルは、マスク言語モデリングや次文予測に使用できますが、主に下流タスクでのファインチューニングを目的としています。関心のあるタスクでファインチューニングされたバージョンをモデルハブで探すことができます。

✨ 主な機能

多言語対応：複数の言語に対応しており、広範なデータセットで事前学習されています。
マスク言語モデリング（MLM）：入力文の一部の単語をマスクし、そのマスクされた単語を予測することで、双方向の文の表現を学習します。
文順序予測（SOP）：2つの連続するテキストセグメントの順序を予測することで、文の構造を学習します。
レイヤー共有：Transformerのレイヤーを共有することで、メモリ使用量を削減します。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

以下は、PyTorchでこのモデルを使用して与えられたテキストの特徴量を取得する方法です。

from transformers import AlbertTokenizer, AlbertModel
tokenizer = AlbertTokenizer.from_pretrained('cservan/multilingual-albert-base-cased-32k')
model = AlbertModel.from_pretrained("cservan/multilingual-albert-base-cased-32k")
text = "Remplacez-moi par le texte en français que vous souhaitez."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

以下は、TensorFlowでこのモデルを使用して与えられたテキストの特徴量を取得する方法です。

from transformers import AlbertTokenizer, TFAlbertModel
tokenizer = AlbertTokenizer.from_pretrained('cservan/multilingual-albert-base-cased-32k')
model = TFAlbertModel.from_pretrained("cservan/multilingual-albert-base-cased-32k")
text = "Remplacez-moi par le texte en français que vous souhaitez."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 ドキュメント

モデルの説明

mALBERTは、自己教師付き学習方式で16GBのフランス語ウィキペディア上で事前学習されたTransformerモデルです。これは、人間によるラベル付けが一切ない生のテキストのみを使用して事前学習されており、それらのテキストから入力とラベルを自動的に生成するプロセスを用いています。具体的には、2つの目的で事前学習されています。

マスク言語モデリング（MLM）：文を入力として受け取り、モデルは入力中の単語の15％をランダムにマスクし、そのマスクされた文全体をモデルに通して、マスクされた単語を予測します。これは、通常は単語を順番に見る従来の再帰型ニューラルネットワーク（RNN）や、内部的に未来のトークンをマスクするGPTのような自己回帰モデルとは異なり、文の双方向の表現を学習することができます。
文順序予測（SOP）：mALBERTは、2つの連続するテキストセグメントの順序を予測することに基づく事前学習損失を使用します。

このようにして、モデルは言語の内部表現を学習し、それを下流タスクに有用な特徴量として抽出することができます。例えば、ラベル付きの文のデータセットがある場合、mALBERTモデルが生成する特徴量を入力として標準的な分類器を学習することができます。

mALBERTは、Transformerのレイヤーを共有する点で独特です。したがって、すべてのレイヤーは同じ重みを持ちます。繰り返しレイヤーを使用することで、メモリ使用量が少なくなりますが、計算コストは同じ数の隠れ層を持つBERTのようなアーキテクチャと同程度になります。

これはベースモデルの第2バージョンです。

このモデルは以下の構成を持っています。

属性	详情
レイヤー数	12（繰り返しレイヤー）
埋め込み次元	128
隠れ次元	768
アテンションヘッド数	12
パラメータ数	11M
語彙サイズ	32k

想定される用途と制限

このモデルは、マスク言語モデリングまたは次文予測に生のモデルを使用することができますが、主に下流タスクでのファインチューニングを目的としています。関心のあるタスクでファインチューニングされたバージョンをモデルハブで探すことができます。

このモデルは、主に文全体（潜在的にマスクされた）を使用して決定を行うタスク、例えばシーケンス分類、トークン分類、質問応答などでのファインチューニングを目的としています。テキスト生成のようなタスクには、GPT2のようなモデルを使用することをお勧めします。

訓練データ

mALBERTモデルは、多言語ウィキペディアの13GBのデータ（リスト、テーブル、ヘッダーを除く）で事前学習されています。

訓練手順

前処理

テキストは小文字に変換され、SentencePieceを使用して語彙サイズ128,000でトークン化されます。モデルの入力は以下の形式になります。

[CLS] Sentence A [SEP] Sentence B [SEP]

訓練

mALBERTの手順はBERTのセットアップに従います。

各文のマスク手順の詳細は以下の通りです。

トークンの15％がマスクされます。
80％の場合、マスクされたトークンは[MASK]に置き換えられます。
10％の場合、マスクされたトークンは置き換えるトークンとは異なるランダムなトークンに置き換えられます。
残りの10％の場合、マスクされたトークンはそのまま残されます。

ツール

モデルを事前学習するために使用されたツールはこちらで入手できます。

評価結果

下流タスクでファインチューニングされた場合、ALBERTモデルは以下の結果を達成します。

スロット埋め込み

モデル ⧹ タスク	MMNLU	MultiATIS++	CoNLL2003	MultiCoNER	SNIPS	MEDIA
EnALBERT	N/A	N/A	89.67 (0.34)	42.36 (0.22)	95.95 (0.13)	N/A
FrALBERT	N/A	N/A	N/A	N/A	N/A	81.76 (0.59)
mALBERT - 128k	65.81 (0.11)	89.14 (0.15)	88.27 (0.24)	46.01 (0.18)	91.60 (0.31)	83.15 (0.38)
mALBERT - 64k	65.29 (0.14)	88.88 (0.14)	86.44 (0.37)	44.70 (0.27)	90.84 (0.47)	82.30 (0.19)
mALBERT - 32k	64.83 (0.22)	88.60 (0.27)	84.96 (0.41)	44.13 (0.39)	89.89 (0.68)	82.04 (0.28)

分類タスク

モデル ⧹ タスク	MMNLU	MultiATIS++	SNIPS	SST2
mALBERT - 128k	72.35 (0.09)	90.58 (0.98)	96.84 (0.49)	34.66 (1.46)
mALBERT - 64k	71.26 (0.11)	90.97 (0.70)	96.53 (0.44)	34.64 (1.02)
mALBERT - 32k	70.76 (0.11)	90.55 (0.98)	96.49 (0.45)	34.18 (1.64)

BibTeXエントリと引用情報

@inproceedings{servan2024mALBERT,
  author    = {Christophe Servan and
               Sahar Ghannay and
               Sophie Rosset},
  booktitle = {the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC - COLING 2024)},
  title     = {{mALBERT: Is a Compact Multilingual BERT Model Still Worth It?}},
  year      = {2024},
  address   = {Torino, Italy},
  month     = may,
}

論文へのリンク: PDF