🚀 GottBERT:純德語語言模型
GottBERT是首個僅針對德語的RoBERTa模型,它在首次發佈的OSCAR數據集中的德語部分上進行了預訓練。該模型旨在為德語在各種自然語言處理(NLP)任務中提供更出色的性能,這些任務包括命名實體識別(NER)、文本分類和自然語言推理(NLI)等。GottBERT有基礎模型和大型模型兩個版本,專門為德語任務量身定製。
屬性 |
詳情 |
模型類型 |
RoBERTa |
語言 |
德語 |
基礎模型 |
12層,1.25億參數 |
大型模型 |
24層,3.55億參數 |
許可證 |
MIT |
該模型的相關信息發表於GottBERT: a pure German Language Model。
🚀 快速開始
GottBERT是一個專門為德語設計的語言模型,可用於多種自然語言處理任務。你可以通過以下鏈接獲取相關資源:
✨ 主要特性
- 針對性強:是首個僅針對德語的RoBERTa模型,專為德語自然語言處理任務設計。
- 多版本選擇:提供基礎模型和大型模型兩個版本,可根據不同需求選擇。
- 性能出色:在多種德語自然語言處理任務中表現優異。
📦 安裝指南
文檔未提供具體安裝步驟,可參考相關代碼庫(如Fairseq)獲取安裝方法。
💻 使用示例
文檔未提供具體代碼示例,你可以根據自己的需求,結合GottBERT的特性,在相關自然語言處理任務中使用該模型。
📚 詳細文檔
預訓練詳情
- 語料庫:OSCAR數據集(Common Crawl)中的德語部分。
- 數據規模:
- 未過濾:145GB(約4.59億個文檔)
- 過濾後:121GB(約3.82億個文檔)
- 預處理:過濾過程包括糾正編碼錯誤(如錯誤的變音符號),使用語言檢測和句法過濾去除垃圾郵件和非德語文檔。
過濾指標
- 停用詞比率:檢測垃圾郵件和無意義內容。
- 標點符號比率:檢測異常的標點符號模式。
- 大寫標記比率:識別包含過多大寫標記的文檔(通常是嘈雜內容)。
訓練配置
- 框架:Fairseq
- 硬件:
- 基礎模型:256個TPUv3 pod/128個TPUv4 pod
- 大型模型:128個TPUv4 pod
- 訓練時間:
- 批次大小:8k個標記
- 學習率:
- 基礎模型:峰值學習率 = 0.0004
- 大型模型:峰值學習率 = 0.00015
- 訓練迭代次數:100k步,包含10k步的熱身階段
評估與結果
GottBERT在各種下游任務中進行了評估:
- 命名實體識別(NER):CoNLL 2003、GermEval 2014
- 文本分類:GermEval 2018(粗粒度和細粒度)、10kGNAD
- 自然語言推理(NLI):XNLI中的德語子集
評估指標:
- 命名實體識別和文本分類:F1分數
- 自然語言推理:準確率
詳情:
- 粗體值表示在一種架構(基礎模型、大型模型)中表現最佳的模型,下劃線值表示第二佳的模型。
模型 |
自然語言推理準確率 |
GermEval_14 F1分數 |
CoNLL F1分數 |
粗粒度F1分數 |
細粒度F1分數 |
10kGNAD F1分數 |
GottBERT_base_best |
80.82 |
87.55 |
85.93 |
78.17 |
53.30 |
89.64 |
GottBERT_base_last |
81.04 |
87.48 |
85.61 |
78.18 |
53.92 |
90.27 |
GottBERT_filtered_base_best |
80.56 |
87.57 |
86.14 |
78.65 |
52.82 |
89.79 |
GottBERT_filtered_base_last |
80.74 |
87.59 |
85.66 |
78.08 |
52.39 |
89.92 |
GELECTRA_base |
81.70 |
86.91 |
85.37 |
77.26 |
50.07 |
89.02 |
GBERT_base |
80.06 |
87.24 |
85.16 |
77.37 |
51.51 |
90.30 |
dbmdzBERT |
68.12 |
86.82 |
85.15 |
77.46 |
52.07 |
90.34 |
GermanBERT |
78.16 |
86.53 |
83.87 |
74.81 |
47.78 |
90.18 |
XLM - R_base |
79.76 |
86.14 |
84.46 |
77.13 |
50.54 |
89.81 |
mBERT |
77.03 |
86.67 |
83.18 |
73.54 |
48.32 |
88.90 |
GottBERT_large |
82.46 |
88.20 |
86.78 |
79.40 |
54.61 |
90.24 |
GottBERT_filtered_large_best |
83.31 |
88.13 |
86.30 |
79.32 |
54.70 |
90.31 |
GottBERT_filtered_large_last |
82.79 |
88.27 |
86.28 |
78.96 |
54.72 |
90.17 |
GELECTRA_large |
86.33 |
88.72 |
86.78 |
81.28 |
56.17 |
90.97 |
GBERT_large |
84.21 |
88.72 |
87.19 |
80.84 |
57.37 |
90.74 |
XLM - R_large |
84.07 |
88.83 |
86.54 |
79.05 |
55.06 |
90.17 |
模型架構
- 基礎模型:12層,1.25億參數,5.2萬個標記詞彙表。
- 大型模型:24層,3.55億參數,5.2萬個標記詞彙表。
分詞器
- 類型:GPT - 2字節對編碼(BPE)
- 詞彙表大小:5.2萬個子詞標記
- 訓練語料:未過濾的德語OSCAR語料庫的40GB子樣本。
侷限性
- 過濾數據與未過濾數據:過濾後的數據有輕微改進,但不足以證明在每種情況下都需要進行過濾。
- 計算限制:TPU上的固定內存分配要求將數據作為單一流進行處理,這與保留文檔邊界的GPU訓練不同。由於框架限制,訓練在32位模式下進行,增加了內存使用量。
🔧 技術細節
GottBERT是基於RoBERTa架構專門為德語設計的語言模型。它在OSCAR數據集的德語部分上進行預訓練,通過一系列的預處理和過濾步驟,提高了數據質量。在訓練過程中,使用了Fairseq框架,並在TPU上進行大規模訓練。模型架構分為基礎模型和大型模型,分別具有不同的層數和參數數量。分詞器採用GPT - 2的字節對編碼(BPE),確保了對德語詞彙的有效處理。
📄 許可證
本項目採用MIT許可證。
📖 引用
如果您在研究中使用了GottBERT,請引用以下論文:
@inproceedings{scheible-etal-2024-gottbert,
title = "{G}ott{BERT}: a pure {G}erman Language Model",
author = "Scheible, Raphael and
Frei, Johann and
Thomczyk, Fabian and
He, Henry and
Tippmann, Patric and
Knaus, Jochen and
Jaravine, Victor and
Kramer, Frank and
Boeker, Martin",
editor = "Al-Onaizan, Yaser and
Bansal, Mohit and
Chen, Yun-Nung",
booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2024",
address = "Miami, Florida, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.emnlp-main.1183",
pages = "21237--21250",
}