C

Cerebras GPT 590M

由 cerebras 开发
Cerebras-GPT 590M是基于Transformer架构的语言模型,属于Cerebras-GPT模型家族,旨在研究大语言模型扩展规律并展示在Cerebras软硬件栈上训练大语言模型的简便性和可扩展性。
下载量 2,430
发布时间 : 3/20/2023

模型简介

Cerebras-GPT 590M是一个590M参数规模的GPT-3风格语言模型,主要用于自然语言处理任务,如文本生成和语言理解。

模型特点

计算最优训练
按照Chinchilla扩展规律进行训练,每个模型参数对应20个标记,实现计算最优
高效训练架构
在Andromeda AI超级计算机上训练,利用Cerebras的权重流式传输技术实现高效扩展
模型家族丰富
提供从111M到13B不同规模的模型选择,满足不同计算需求

模型能力

文本生成
语言理解
零样本学习
五样本学习

使用案例

研究
大语言模型扩展规律研究
用于研究不同规模语言模型的性能扩展规律
自然语言处理
文本生成
生成连贯的英文文本
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase