S

Smol Llama 220M GQA

由 BEE-spoke-data 开发
smol_llama是一个220M参数的小型解码器模型,具备GQA(分组查询注意力)机制,适用于文本生成等任务。
下载量 3,633
发布时间 : 12/22/2023

模型简介

这是一个小型解码器模型,总参数为220M,是该模型的首个版本。它具备一定的性能和特性,可用于文本生成等任务。

模型特点

小型高效
220M参数的轻量级模型,可在单GPU上从头开始训练
GQA机制
采用分组查询注意力(32个注意力头,8个键值对),提高推理效率
长上下文支持
支持2048 tokens的上下文长度
多样化微调
提供多种微调版本,包括指令微调、代码生成等

模型能力

文本生成
指令跟随
代码生成
问答系统

使用案例

通用文本生成
故事续写
根据给定的开头续写故事
如示例中的'Story Continuation'所示,模型能连贯地续写故事
知识问答
回答基于事实的问题
如示例中的'Photosynthesis'所示,模型能提供基本正确的知识回答
教育
数学问题解答
解决基础数学问题
如示例中的'Math Problem'所示,模型能理解并尝试解答数学问题
娱乐
谜语解答
解答谜语和脑筋急转弯
如示例中的'Riddle'所示,模型能理解并尝试解答谜语
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase