モデル選定

大規模コーパス事前学習

# 大規模コーパス事前学習

Camembertav2 Base

CamemBERTav2は2750億のフランス語テキストトークンで事前学習されたフランス語言語モデルで、DebertaV2アーキテクチャを採用し、複数のフランス語NLPタスクで優れた性能を発揮します。

大規模言語モデル

Transformers フランス語

Camembertv2 Base

CamemBERTv2は2750億のフランス語テキストコーパスで事前学習されたフランス語言語モデルで、CamemBERTの第2世代バージョンです。RoBERTaアーキテクチャを採用し、トークナイザーとトレーニングデータを最適化しました。

大規模言語モデル

Transformers フランス語

Distilbert Tokenizer 256k MLM 750k

256k単語埋め込みに基づくDistilBERTモデル、MLMトレーニングにより単語ベクトルを最適化

大規模言語モデル

vocab-transformers

Bert Medium Arabic

約82億語のアラビア語テキストリソースを基に訓練された事前学習済みのアラビア語BERT中型言語モデル

大規模言語モデルアラビア語

Funnel Kor Base

70GBの韓国語テキストデータセットで訓練されたFunnel-transformer基本モデルで、42000の小文字サブワード単位を使用

大規模言語モデル

Transformers 韓国語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase