E

Electra Base Gc4 64k 500000 Cased Generator

由stefan-it開發
基於德語海量清潔版Common Crawl語料庫(GC4)訓練的超大規模德語語言模型,總規模約844GB,可能存在偏見。
下載量 16
發布時間 : 3/2/2022

模型概述

該模型是一個針對德語訓練的大型語言模型,主要用於研究用途,特別是偏見識別與預防的研究。

模型特點

大規模德語語料訓練
基於844GB的德語海量清潔版Common Crawl語料庫(GC4)訓練。
研究導向
主要用於推動德語大規模預訓練語言模型的研究,特別是偏見識別與預防的研究。
存在偏見
由於訓練數據來自互聯網爬取文本,模型可能編碼與性別、種族、民族及殘障狀態相關的刻板印象關聯。

模型能力

德語文本生成
德語文本理解

使用案例

研究
偏見識別研究
用於識別和預防語言模型中的偏見問題。
德語語言模型研究
推動德語大規模預訓練語言模型的研究。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase