C

Csmpt7b

BUT-FITによって開発
英語MPT7bモデルを基に継続事前学習した大規模チェコ語モデルで、トレーニングデータは2720億トークンに達し、チェコ語トークナイザーを使用して約670億トークンの大規模チェコ語コーパスで事前学習済み
ダウンロード数 234
リリース時間 : 3/11/2024

モデル概要

CSMPT7bは語彙置換手法で実現されたチェコ語大規模言語モデルで、Karolinaスーパーコンピュータクラスタでトレーニングされ、主にチェコ語テキスト生成タスクに使用されます

モデル特徴

語彙置換技術
英チェコ語彙表をアライメントし単語ベクトルをコピーすることで知識移転を実現し、ゼロからのトレーニングより大幅に優れた効果
大規模チェコ語トレーニング
約670億トークンの大規模チェコ語コーパスを使用した事前学習
動的コーパス切り替え
トレーニングプロセスで3つの異なるコーパス(オリジナルとフィルタリング済み)を動的に切り替え

モデル能力

チェコ語テキスト生成
言語理解

使用事例

テキスト生成
チェコ語コンテンツ作成
チェコ語の記事、ストーリーなどのテキストコンテンツを生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase