GottBERT_base_last開源德語語言模型 - 免費助力德語文本處理應用

首頁

Gottbert Base Last

由TUM開發

GottBERT是首個專為德語設計的RoBERTa模型，基於OSCAR數據集的德語部分進行預訓練，提供基礎版和大模型版兩個版本。

大型語言模型德語開源協議:MIT #德語RoBERTa #大規模預訓練 #多任務優化

下載量 6,842

發布時間 : 3/2/2022

模型概述

GottBERT是一個純德語語言模型，旨在為德語自然語言處理任務（如命名實體識別、文本分類和自然語言推理）提供增強性能。

模型特點

純德語優化

專為德語設計，基於德語OSCAR數據集預訓練，提供更準確的德語語言理解。

雙版本選擇

提供基礎版（1.25億參數）和大模型版（3.55億參數），滿足不同計算需求。

高效過濾

通過停用詞比例、標點比例和大寫詞比例等指標過濾噪聲數據，提升模型質量。

高性能分詞器

採用GPT-2字節對編碼（BPE）分詞器，詞表大小為52k子詞單元。

模型能力

德語文本理解

命名實體識別

文本分類

自然語言推理

使用案例

自然語言處理

命名實體識別

識別德語文本中的命名實體（如人名、地名、組織名）。

在CoNLL 2003數據集上F1分數達86.14（基礎版）和86.78（大模型版）。

文本分類

對德語文本進行分類（如新聞分類、情感分析）。

在GermEval 2018（粗粒度）上F1分數達78.65（基礎版）和79.40（大模型版）。

自然語言推理

判斷德語文本對之間的邏輯關係（如蘊含、矛盾、中立）。

在XNLI德語子集上準確率達80.82（基礎版）和82.46（大模型版）。

🚀 GottBERT：純德語語言模型

GottBERT是首個僅針對德語的RoBERTa模型，它在首次發佈的OSCAR數據集中的德語部分上進行了預訓練。該模型旨在為德語在各種自然語言處理（NLP）任務中提供更出色的性能，這些任務包括命名實體識別（NER）、文本分類和自然語言推理（NLI）等。GottBERT有基礎模型和大型模型兩個版本，專門為德語任務量身定製。

屬性	詳情
模型類型	RoBERTa
語言	德語
基礎模型	12層，1.25億參數
大型模型	24層，3.55億參數
許可證	MIT

該模型的相關信息發表於GottBERT: a pure German Language Model。

🚀 快速開始

GottBERT是一個專門為德語設計的語言模型，可用於多種自然語言處理任務。你可以通過以下鏈接獲取相關資源：

論文：GottBERT: a pure German Language Model
Fairseq檢查點：點擊獲取

✨ 主要特性

針對性強：是首個僅針對德語的RoBERTa模型，專為德語自然語言處理任務設計。
多版本選擇：提供基礎模型和大型模型兩個版本，可根據不同需求選擇。
性能出色：在多種德語自然語言處理任務中表現優異。

📦 安裝指南

文檔未提供具體安裝步驟，可參考相關代碼庫（如Fairseq）獲取安裝方法。

💻 使用示例

文檔未提供具體代碼示例，你可以根據自己的需求，結合GottBERT的特性，在相關自然語言處理任務中使用該模型。

📚 詳細文檔

預訓練詳情

語料庫：OSCAR數據集（Common Crawl）中的德語部分。
數據規模：
- 未過濾：145GB（約4.59億個文檔）
- 過濾後：121GB（約3.82億個文檔）
預處理：過濾過程包括糾正編碼錯誤（如錯誤的變音符號），使用語言檢測和句法過濾去除垃圾郵件和非德語文檔。

過濾指標

停用詞比率：檢測垃圾郵件和無意義內容。
標點符號比率：檢測異常的標點符號模式。
大寫標記比率：識別包含過多大寫標記的文檔（通常是嘈雜內容）。

訓練配置

框架：Fairseq
硬件：
- 基礎模型：256個TPUv3 pod/128個TPUv4 pod
- 大型模型：128個TPUv4 pod
訓練時間：
- 基礎模型：1.2天
- 大型模型：5.7天
批次大小：8k個標記
學習率：
- 基礎模型：峰值學習率 = 0.0004
- 大型模型：峰值學習率 = 0.00015
訓練迭代次數：100k步，包含10k步的熱身階段

評估與結果

GottBERT在各種下游任務中進行了評估：

命名實體識別（NER）：CoNLL 2003、GermEval 2014
文本分類：GermEval 2018（粗粒度和細粒度）、10kGNAD
自然語言推理（NLI）：XNLI中的德語子集

評估指標：

命名實體識別和文本分類：F1分數
自然語言推理：準確率

詳情：

粗體值表示在一種架構（基礎模型、大型模型）中表現最佳的模型，下劃線值表示第二佳的模型。

模型	自然語言推理準確率	GermEval_14 F1分數	CoNLL F1分數	粗粒度F1分數	細粒度F1分數	10kGNAD F1分數
GottBERT_base_best	80.82	87.55	85.93	78.17	53.30	89.64
GottBERT_base_last	81.04	87.48	85.61	78.18	53.92	90.27
GottBERT_filtered_base_best	80.56	87.57	86.14	78.65	52.82	89.79
GottBERT_filtered_base_last	80.74	87.59	85.66	78.08	52.39	89.92
GELECTRA_base	81.70	86.91	85.37	77.26	50.07	89.02
GBERT_base	80.06	87.24	85.16	77.37	51.51	90.30
dbmdzBERT	68.12	86.82	85.15	77.46	52.07	90.34
GermanBERT	78.16	86.53	83.87	74.81	47.78	90.18
XLM - R_base	79.76	86.14	84.46	77.13	50.54	89.81
mBERT	77.03	86.67	83.18	73.54	48.32	88.90
GottBERT_large	82.46	88.20	86.78	79.40	54.61	90.24
GottBERT_filtered_large_best	83.31	88.13	86.30	79.32	54.70	90.31
GottBERT_filtered_large_last	82.79	88.27	86.28	78.96	54.72	90.17
GELECTRA_large	86.33	88.72	86.78	81.28	56.17	90.97
GBERT_large	84.21	88.72	87.19	80.84	57.37	90.74
XLM - R_large	84.07	88.83	86.54	79.05	55.06	90.17

模型架構

基礎模型：12層，1.25億參數，5.2萬個標記詞彙表。
大型模型：24層，3.55億參數，5.2萬個標記詞彙表。

分詞器

類型：GPT - 2字節對編碼（BPE）
詞彙表大小：5.2萬個子詞標記
訓練語料：未過濾的德語OSCAR語料庫的40GB子樣本。

侷限性

過濾數據與未過濾數據：過濾後的數據有輕微改進，但不足以證明在每種情況下都需要進行過濾。
計算限制：TPU上的固定內存分配要求將數據作為單一流進行處理，這與保留文檔邊界的GPU訓練不同。由於框架限制，訓練在32位模式下進行，增加了內存使用量。

🔧 技術細節

GottBERT是基於RoBERTa架構專門為德語設計的語言模型。它在OSCAR數據集的德語部分上進行預訓練，通過一系列的預處理和過濾步驟，提高了數據質量。在訓練過程中，使用了Fairseq框架，並在TPU上進行大規模訓練。模型架構分為基礎模型和大型模型，分別具有不同的層數和參數數量。分詞器採用GPT - 2的字節對編碼（BPE），確保了對德語詞彙的有效處理。

📄 許可證

本項目採用MIT許可證。

📖 引用

如果您在研究中使用了GottBERT，請引用以下論文：

@inproceedings{scheible-etal-2024-gottbert,
    title = "{G}ott{BERT}: a pure {G}erman Language Model",
    author = "Scheible, Raphael  and
      Frei, Johann  and
      Thomczyk, Fabian  and
      He, Henry  and
      Tippmann, Patric  and
      Knaus, Jochen  and
      Jaravine, Victor  and
      Kramer, Frank  and
      Boeker, Martin",
    editor = "Al-Onaizan, Yaser  and
      Bansal, Mohit  and
      Chen, Yun-Nung",
    booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2024",
    address = "Miami, Florida, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.emnlp-main.1183",
    pages = "21237--21250",
}