C

Csmpt7b

由BUT-FIT開發
基於英語MPT7b模型持續預訓練的大型捷克語模型,訓練語料達2720億token,使用捷克語分詞器在約670億token的捷克大型語料集上預訓練
下載量 234
發布時間 : 3/11/2024

模型概述

CSMPT7b是通過詞彙替換方法實現的捷克語大語言模型,在Karolina超算集群完成訓練,主要用於捷克語文本生成任務

模型特點

詞彙替換技術
通過對齊英捷詞彙表並複製詞向量實現知識遷移,顯著優於從頭訓練的效果
大規模捷克語訓練
使用約670億token的捷克大型語料集進行預訓練
動態語料切換
訓練過程中動態切換三套不同語料,包括原始語料和過濾後的語料

模型能力

捷克語文本生成
語言理解

使用案例

文本生成
捷克語內容創作
生成捷克語文章、故事等文本內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase