G

Gottbert Base Last

TUMによって開発
GottBERTはドイツ語専用に設計された初のRoBERTaモデルで、OSCARデータセットのドイツ語部分に基づいて事前学習され、基本版と大規模版の2つのバージョンを提供します。
ダウンロード数 6,842
リリース時間 : 3/2/2022

モデル概要

GottBERTは純粋なドイツ語言語モデルで、ドイツ語の自然言語処理タスク(固有表現認識、テキスト分類、自然言語推論など)の性能向上を目的としています。

モデル特徴

純粋ドイツ語最適化
ドイツ語専用に設計され、ドイツ語OSCARデータセットで事前学習されており、より正確なドイツ語理解を提供します。
二つのバージョン選択
基本版(1.25億パラメータ)と大規模版(3.55億パラメータ)を提供し、異なる計算ニーズに対応します。
効率的なフィルタリング
ストップワード比率、句読点比率、大文字比率などの指標でノイズデータをフィルタリングし、モデル品質を向上させます。
高性能トークナイザー
GPT-2バイトペアエンコーディング(BPE)トークナイザーを採用し、語彙サイズは52kサブワードユニットです。

モデル能力

ドイツ語テキスト理解
固有表現認識
テキスト分類
自然言語推論

使用事例

自然言語処理
固有表現認識
ドイツ語テキスト中の固有表現(人名、地名、組織名など)を識別します。
CoNLL 2003データセットでF1スコア86.14(基本版)と86.78(大規模版)を達成。
テキスト分類
ドイツ語テキストを分類します(ニュース分類、感情分析など)。
GermEval 2018(粗粒度)でF1スコア78.65(基本版)と79.40(大規模版)を達成。
自然言語推論
ドイツ語テキストペア間の論理的関係(含意、矛盾、中立など)を判断します。
XNLIドイツ語サブセットで精度80.82(基本版)と82.46(大規模版)を達成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase