🚀 GottBERT: 純粋なドイツ語モデル
GottBERTは、最初に公開されたOSCARデータセットのドイツ語部分で事前学習された、最初のドイツ語専用のRoBERTaモデルです。このモデルは、固有表現認識(NER)、テキスト分類、自然言語推論(NLI)などの様々なタスクにおいて、ドイツ語の自然言語処理(NLP)性能を向上させることを目的としています。GottBERTには、ドイツ語タスクに特化したベースモデルとラージモデルの2つのバージョンが開発されています。
プロパティ |
詳細 |
モデルタイプ |
RoBERTa |
言語 |
ドイツ語 |
ベースモデル |
12層、1億2500万のパラメータ |
ラージモデル |
24層、3億5500万のパラメータ |
ライセンス |
MIT |
このモデルは、GottBERT: a pure German Language Modelで発表されました。
🚀 クイックスタート
GottBERTは、ドイツ語の自然言語処理タスクにおいて高い性能を発揮する事前学習済みモデルです。以下のセクションでは、その事前学習の詳細、トレーニング設定、評価結果、モデルアーキテクチャなどについて説明します。
✨ 主な機能
- ドイツ語専用のRoBERTaモデルで、様々なNLPタスクに対応。
- ベースモデルとラージモデルの2つのバージョンが用意されている。
- 事前学習には、OSCARデータセットのドイツ語部分を使用。
📚 ドキュメント
事前学習の詳細
- コーパス:OSCARデータセット(Common Crawl)のドイツ語部分。
- データサイズ:
- 未フィルタリング:145GB(約4億5900万の文書)
- フィルタリング済み:121GB(約3億8200万の文書)
- 前処理:エンコーディングエラーの修正(例:誤った変音符)、言語検出と構文フィルタリングを使用したスパムと非ドイツ語文書の削除を含むフィルタリング。
フィルタリング指標
- ストップワード比率:スパムや意味のないコンテンツを検出。
- 句読点比率:異常な句読点パターンを検出。
- 大文字トークン比率:過度に大文字のトークンを含む文書(多くの場合ノイズの多いコンテンツ)を識別。
トレーニング設定
- フレームワーク:Fairseq
- ハードウェア:
- ベースモデル:256 TPUv3ポッド/128 TPUv4ポッド
- ラージモデル:128 TPUv4ポッド
- トレーニング時間:
- バッチサイズ:8kトークン
- 学習率:
- ベース:ピーク学習率 = 0.0004
- ラージ:ピーク学習率 = 0.00015
- トレーニング反復回数:10kのウォームアップフェーズを含む10万ステップ。
評価と結果
GottBERTは、様々な下流タスクで評価されました:
- NER:CoNLL 2003、GermEval 2014
- テキスト分類:GermEval 2018(粗粒度と細粒度)、10kGNAD
- NLI:XNLIのドイツ語サブセット
評価指標:
詳細:
- 太字の値は、あるアーキテクチャ(ベース、ラージ)内で最も性能が高いモデルを示し、下線付きの値は2番目に性能が高いモデルを示します。
モデル |
NLI正解率 |
GermEval_14 F1 |
CoNLL F1 |
粗粒度F1 |
細粒度F1 |
10kGNAD F1 |
GottBERT_base_best |
80.82 |
87.55 |
85.93 |
78.17 |
53.30 |
89.64 |
GottBERT_base_last |
81.04 |
87.48 |
85.61 |
78.18 |
53.92 |
90.27 |
GottBERT_filtered_base_best |
80.56 |
87.57 |
86.14 |
78.65 |
52.82 |
89.79 |
GottBERT_filtered_base_last |
80.74 |
87.59 |
85.66 |
78.08 |
52.39 |
89.92 |
GELECTRA_base |
81.70 |
86.91 |
85.37 |
77.26 |
50.07 |
89.02 |
GBERT_base |
80.06 |
87.24 |
85.16 |
77.37 |
51.51 |
90.30 |
dbmdzBERT |
68.12 |
86.82 |
85.15 |
77.46 |
52.07 |
90.34 |
GermanBERT |
78.16 |
86.53 |
83.87 |
74.81 |
47.78 |
90.18 |
XLM - R_base |
79.76 |
86.14 |
84.46 |
77.13 |
50.54 |
89.81 |
mBERT |
77.03 |
86.67 |
83.18 |
73.54 |
48.32 |
88.90 |
GottBERT_large |
82.46 |
88.20 |
86.78 |
79.40 |
54.61 |
90.24 |
GottBERT_filtered_large_best |
83.31 |
88.13 |
86.30 |
79.32 |
54.70 |
90.31 |
GottBERT_filtered_large_last |
82.79 |
88.27 |
86.28 |
78.96 |
54.72 |
90.17 |
GELECTRA_large |
86.33 |
88.72 |
86.78 |
81.28 |
56.17 |
90.97 |
GBERT_large |
84.21 |
88.72 |
87.19 |
80.84 |
57.37 |
90.74 |
XLM - R_large |
84.07 |
88.83 |
86.54 |
79.05 |
55.06 |
90.17 |
モデルアーキテクチャ
- ベースモデル:12層、1億2500万のパラメータ、52kのトークン語彙。
- ラージモデル:24層、3億5500万のパラメータ、52kのトークン語彙。
トークナイザー
- タイプ:GPT - 2 Byte - Pair Encoding(BPE)
- 語彙サイズ:52kのサブワードトークン
- 学習対象:未フィルタリングのドイツ語OSCARコーパスの40GBのサブサンプル。
制限事項
- フィルタリング済みデータと未フィルタリングデータ:フィルタリング済みデータでわずかな改善が見られますが、すべてのケースでフィルタリングを正当化するほどの有意性はありません。
- 計算上の制限:TPUでの固定メモリ割り当てにより、GPUトレーニングのように文書境界を維持することができず、データを単一のストリームとして処理する必要がありました。フレームワークの制限により、32ビットモードでトレーニングが行われ、メモリ使用量が増加しました。
Fairseqチェックポイント
Fairseqのチェックポイントはこちらから取得できます。
引用
もしあなたの研究でGottBERTを使用する場合は、以下の論文を引用してください:
@inproceedings{scheible-etal-2024-gottbert,
title = "{G}ott{BERT}: a pure {G}erman Language Model",
author = "Scheible, Raphael and
Frei, Johann and
Thomczyk, Fabian and
He, Henry and
Tippmann, Patric and
Knaus, Jochen and
Jaravine, Victor and
Kramer, Frank and
Boeker, Martin",
editor = "Al-Onaizan, Yaser and
Bansal, Mohit and
Chen, Yun-Nung",
booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2024",
address = "Miami, Florida, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.emnlp-main.1183",
pages = "21237--21250",
}