# 大規模コーパス

Randeng Pegasus 523M Summary Chinese V1
テキスト要約タスクに特化した中国語PEGASUS-largeモデル、複数の中国語要約データセットで微調整
テキスト生成 Transformers 中国語
R
IDEA-CCNL
95
5
Ernie 3.0 Mini Zh
ERNIE 3.0は中国語の言語理解と生成に向けた大規模な知識拡張事前学習モデルで、miniバージョンはその軽量実装です。
大規模言語モデル Transformers 中国語
E
nghuyong
569
2
XLMR MaCoCu Tr
XLMR-MaCoCu-trはトルコ語テキストの大規模事前学習に基づく言語モデルで、MaCoCuプロジェクトの一部であり、35GBのトルコ語テキストで訓練されています。
大規模言語モデル その他
X
MaCoCu
26
2
Scholarbert
Apache-2.0
大規模な科研論文集に基づいて事前学習されたBERT - largeのバリエーションで、パラメータ数は3億4000万で、科学文献の理解に特化しています。
大規模言語モデル Transformers 英語
S
globuslabs
25
9
Viwav2vec2 Base 3k
このモデルは3千時間のベトナム語音声データで事前学習されたWav2Vec2ベースモデルで、ベトナム語音声認識タスクに適しており、下流タスクで微調整して使用する必要があります。
音声認識 Transformers その他
V
dragonSwing
41
2
Mgpt
mGPTはmC4データセットで事前学習された多言語生成モデルで、101言語をサポートし、GPT-2に似たTransformerアーキテクチャを採用しています。
大規模言語モデル Transformers
M
THUMT
147
8
FERNET C5
FERNET-C5はチェコ語に基づく単言語BERT基礎モデルで、事前学習データは93GBのチェコ語の大規模クリーンなクロールコーパス(C5)から取得されます。
大規模言語モデル Transformers その他
F
fav-kky
219
7
Indobert Large P2
MIT
IndoBERTは、BERTモデルをベースにインドネシア語向けに開発された最先端の言語モデルで、マスク言語モデリング(MLM)と次文予測(NSP)の目標で学習されています。
大規模言語モデル その他
I
indobenchmark
2,272
8
Tf Xlm Roberta Base
XLM-RoBERTaは100言語の2.5Tデータで訓練された言語横断文エンコーダーの拡張版で、複数の言語横断ベンチマークで優れた性能を発揮します。
大規模言語モデル Transformers
T
jplu
4,820
1
Electra Base Gc4 64k 500000 Cased Generator
MIT
ドイツ語の大規模クリーン版Common Crawlコーパス(GC4)に基づいてトレーニングされた超大規模ドイツ語言語モデルで、総規模は約844GBであり、バイアスが含まれる可能性があります。
大規模言語モデル Transformers ドイツ語
E
stefan-it
16
0
Ukr Roberta Base
ウクライナ語の大規模コーパスを使って訓練されたRoBERTa基礎モデルで、ウクライナ語の自然言語処理タスクに適しています。
大規模言語モデル その他
U
youscan
3,702
23
Mt5 Base
Apache-2.0
mT5はT5モデルの多言語バリアントで、101言語をカバーするmC4コーパスで事前学習されており、多言語テキスト処理タスクに適しています。
大規模言語モデル 複数言語対応
M
google
118.49k
229
Procbert
ProcBERTは、プロセステキストの最適化のために特別に設計された事前学習言語モデルです。大規模なプロセステキストコーパス(生物医学文献、化学特許、料理レシピを含む)を基に事前学習され、下流タスクで卓越した性能を発揮します。
大規模言語モデル Transformers 英語
P
fbaigt
13
1
Wav2vec2 Large Es Voxpopuli
VoxPopuliコーパスのスペイン語サブセットでトレーニングされた大規模音声事前学習モデルで、スペイン語音声認識タスクに適しています
音声認識 スペイン語
W
facebook
117.04k
1
Bert Large Arabertv2
AraBERTは、グーグルのBERTアーキテクチャに基づくアラビア語の事前学習言語モデルで、アラビア語の自然言語理解タスク用に設計されています。
大規模言語モデル アラビア語
B
aubmindlab
334
11
Indobert Base P2
MIT
IndoBERTはBERTモデルに基づくインドネシア語の最先端言語モデルで、マスク言語モデリングと次文予測目標を用いて訓練されています。
大規模言語モデル その他
I
indobenchmark
25.89k
5
Wav2vec2 Base Nl Voxpopuli
VoxPopuliコーパスのオランダ語サブセットで事前学習されたWav2Vec2ベースモデル、オランダ語音声認識タスクに適しています。
音声認識 Transformers その他
W
facebook
31
0
Chinese Mobile Bert
Apache-2.0
このモデルは2.5億の中国語コーパスに基づき、MobileBERTアーキテクチャを用いて事前学習を行い、トレーニング周期は15日で、単一のA100グラフィックカード上で100万ステップの反復を完了しました。
大規模言語モデル Transformers
C
Ayou
25
5
Xlm Roberta Large
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標を用いて訓練されています。
大規模言語モデル 複数言語対応
X
FacebookAI
5.3M
431
Wav2vec2 FR 3K Large
Apache-2.0
2.9K時間のフランス語音声で訓練された大型wav2vec2モデルで、自発的な音声、朗読音声、放送音声の処理をサポートします。
音声認識 フランス語
W
LeBenchmark
948
1
Wav2vec2 FR 2.6K Base
Apache-2.0
2.6千時間のフランス語音声でトレーニングされた基本wav2vec2モデル、自発音声データを含まない
音声認識 Transformers フランス語
W
LeBenchmark
41
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase