C

Cerebras GPT 111M

由cerebras開發
Cerebras-GPT系列中的111M參數模型,採用GPT-3風格架構,使用The Pile數據集訓練,遵循Chinchilla擴展定律實現計算最優。
下載量 5,975
發布時間 : 3/17/2023

模型概述

這是一個111M參數的因果語言模型,屬於Cerebras-GPT系列,專為文本生成任務設計。模型採用標準的Transformer架構,在Andromeda AI超級計算機上訓練。

模型特點

計算最優訓練
遵循Chinchilla擴展定律,每模型參數訓練20個token,實現計算效率最大化
硬件優化
在Cerebras CS-2晶圓級系統上訓練,利用權重流技術實現高效擴展
開放架構
採用標準Transformer架構,便於研究和應用

模型能力

英語文本生成
因果語言建模
零樣本學習
五樣本學習

使用案例

文本生成
內容續寫
根據給定文本片段生成連貫的後續內容
問答系統
基於上下文生成回答
教育研究
語言模型研究
用於研究LLM擴展規律和訓練方法
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase