モデル選定

大規模コーパス

# 大規模コーパス

Randeng Pegasus 523M Summary Chinese V1

テキスト要約タスクに特化した中国語PEGASUS-largeモデル、複数の中国語要約データセットで微調整

テキスト生成

Transformers 中国語

Ernie 3.0 Mini Zh

ERNIE 3.0は中国語の言語理解と生成に向けた大規模な知識拡張事前学習モデルで、miniバージョンはその軽量実装です。

大規模言語モデル

Transformers 中国語

XLMR-MaCoCu-trはトルコ語テキストの大規模事前学習に基づく言語モデルで、MaCoCuプロジェクトの一部であり、35GBのトルコ語テキストで訓練されています。

大規模言語モデルその他

大規模な科研論文集に基づいて事前学習されたBERT - largeのバリエーションで、パラメータ数は3億4000万で、科学文献の理解に特化しています。

大規模言語モデル

Transformers 英語

Viwav2vec2 Base 3k

このモデルは3千時間のベトナム語音声データで事前学習されたWav2Vec2ベースモデルで、ベトナム語音声認識タスクに適しており、下流タスクで微調整して使用する必要があります。

Transformers その他

mGPTはmC4データセットで事前学習された多言語生成モデルで、101言語をサポートし、GPT-2に似たTransformerアーキテクチャを採用しています。

大規模言語モデル

FERNET-C5はチェコ語に基づく単言語BERT基礎モデルで、事前学習データは93GBのチェコ語の大規模クリーンなクロールコーパス（C5）から取得されます。

大規模言語モデル

Transformers その他

Indobert Large P2

IndoBERTは、BERTモデルをベースにインドネシア語向けに開発された最先端の言語モデルで、マスク言語モデリング（MLM）と次文予測（NSP）の目標で学習されています。

大規模言語モデルその他

Tf Xlm Roberta Base

XLM-RoBERTaは100言語の2.5Tデータで訓練された言語横断文エンコーダーの拡張版で、複数の言語横断ベンチマークで優れた性能を発揮します。

大規模言語モデル

Electra Base Gc4 64k 500000 Cased Generator

ドイツ語の大規模クリーン版Common Crawlコーパス（GC4）に基づいてトレーニングされた超大規模ドイツ語言語モデルで、総規模は約844GBであり、バイアスが含まれる可能性があります。

大規模言語モデル

Transformers ドイツ語

Ukr Roberta Base

ウクライナ語の大規模コーパスを使って訓練されたRoBERTa基礎モデルで、ウクライナ語の自然言語処理タスクに適しています。

大規模言語モデルその他

mT5はT5モデルの多言語バリアントで、101言語をカバーするmC4コーパスで事前学習されており、多言語テキスト処理タスクに適しています。

大規模言語モデル複数言語対応

ProcBERTは、プロセステキストの最適化のために特別に設計された事前学習言語モデルです。大規模なプロセステキストコーパス（生物医学文献、化学特許、料理レシピを含む）を基に事前学習され、下流タスクで卓越した性能を発揮します。

大規模言語モデル

Transformers 英語

Wav2vec2 Large Es Voxpopuli

VoxPopuliコーパスのスペイン語サブセットでトレーニングされた大規模音声事前学習モデルで、スペイン語音声認識タスクに適しています

音声認識スペイン語

Bert Large Arabertv2

AraBERTは、グーグルのBERTアーキテクチャに基づくアラビア語の事前学習言語モデルで、アラビア語の自然言語理解タスク用に設計されています。

大規模言語モデルアラビア語

Indobert Base P2

IndoBERTはBERTモデルに基づくインドネシア語の最先端言語モデルで、マスク言語モデリングと次文予測目標を用いて訓練されています。

大規模言語モデルその他

Wav2vec2 Base Nl Voxpopuli

VoxPopuliコーパスのオランダ語サブセットで事前学習されたWav2Vec2ベースモデル、オランダ語音声認識タスクに適しています。

Transformers その他

Chinese Mobile Bert

このモデルは2.5億の中国語コーパスに基づき、MobileBERTアーキテクチャを用いて事前学習を行い、トレーニング周期は15日で、単一のA100グラフィックカード上で100万ステップの反復を完了しました。

大規模言語モデル

Xlm Roberta Large

XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標を用いて訓練されています。

大規模言語モデル複数言語対応

Wav2vec2 FR 3K Large

2.9K時間のフランス語音声で訓練された大型wav2vec2モデルで、自発的な音声、朗読音声、放送音声の処理をサポートします。

音声認識フランス語

Wav2vec2 FR 2.6K Base

2.6千時間のフランス語音声でトレーニングされた基本wav2vec2モデル、自発音声データを含まない

Transformers フランス語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase