G

Gottbert Base Last

由TUM開發
GottBERT是首個專為德語設計的RoBERTa模型,基於OSCAR數據集的德語部分進行預訓練,提供基礎版和大模型版兩個版本。
下載量 6,842
發布時間 : 3/2/2022

模型概述

GottBERT是一個純德語語言模型,旨在為德語自然語言處理任務(如命名實體識別、文本分類和自然語言推理)提供增強性能。

模型特點

純德語優化
專為德語設計,基於德語OSCAR數據集預訓練,提供更準確的德語語言理解。
雙版本選擇
提供基礎版(1.25億參數)和大模型版(3.55億參數),滿足不同計算需求。
高效過濾
通過停用詞比例、標點比例和大寫詞比例等指標過濾噪聲數據,提升模型質量。
高性能分詞器
採用GPT-2字節對編碼(BPE)分詞器,詞表大小為52k子詞單元。

模型能力

德語文本理解
命名實體識別
文本分類
自然語言推理

使用案例

自然語言處理
命名實體識別
識別德語文本中的命名實體(如人名、地名、組織名)。
在CoNLL 2003數據集上F1分數達86.14(基礎版)和86.78(大模型版)。
文本分類
對德語文本進行分類(如新聞分類、情感分析)。
在GermEval 2018(粗粒度)上F1分數達78.65(基礎版)和79.40(大模型版)。
自然語言推理
判斷德語文本對之間的邏輯關係(如蘊含、矛盾、中立)。
在XNLI德語子集上準確率達80.82(基礎版)和82.46(大模型版)。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase