G

Gpt2023

由 crumb 开发
基于GPT-2架构的124M参数语言模型,在2.23B token的多样化数据上微调,具备改进的文本生成能力
下载量 136
发布时间 : 4/30/2023

模型简介

这是OpenAI最小的GPT-2模型(124M参数)的微调版本,在Common Crawl网页、ArXiv论文和GitHub代码等数据上训练,优化了生成质量和时效性认知

模型特点

高效微调
在2.23B token数据上微调,接近Chinchilla最优预训练所需token量
多样化数据
训练数据包含网页内容、学术论文和代码,覆盖多领域知识
时效性改进
相比原始GPT-2,对新冠疫情等近期事件有更好的认知能力
轻量级部署
仅需12GB显存的RTX3060即可运行,适合本地部署

模型能力

文本生成
语言理解
上下文补全

使用案例

内容创作
文章生成
根据提示生成连贯的文本段落
如新冠疫情分析文本的生成示例
教育研究
学术摘要
基于ArXiv论文数据生成研究摘要
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase