TinyLlama-1.1B-python-v0.1开源模型 - 轻量级适用于计算资源有限场景

首页

Tinyllama 1.1B Python V0.1

由 TinyLlama 开发

TinyLlama是一个11亿参数的轻量级Llama模型，在3万亿标记上预训练，适用于计算资源有限的应用场景。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #轻量级代码模型 #多语言保留能力 #推测解码辅助

下载量 1,274

发布时间 : 10/3/2023

模型简介

TinyLlama是一个基于Llama 2架构的轻量级语言模型，经过优化可在90天内完成预训练。它兼容Llama生态，适合作为辅助模型或用于资源受限环境。

模型特点

高效预训练

使用16块A100-40G GPU可在90天内完成3万亿标记的预训练

轻量级设计

仅11亿参数，适合计算和内存资源有限的环境

完全兼容Llama生态

采用与Llama 2相同的架构和分词器，可即插即用

多语言保留能力

虽然主要微调Python数据，但仍保留C/Java等其他语言能力

辅助模型功能

可作为草稿模型为更大模型（如CodeLlama）提供推测解码支持

模型能力

文本生成

代码生成

推测解码辅助

多语言处理

使用案例

编程辅助

Python代码生成

基于上下文生成Python代码片段

HumanEval基准测试准确率14%

多语言代码补全

支持C/Java等语言的代码补全（能力弱于Python）

模型加速

推测解码辅助

作为CodeLlama等大模型的草稿模型加速推理

🚀 TinyLlama-1.1B

TinyLlama项目旨在预训练一个在3万亿个标记上训练的11亿参数的Llama模型。通过适当的优化，使用16块A100 - 40G GPU，我们可以在“仅”90天内完成这一目标🚀🚀。训练已于2023年9月1日开始。该模型采用了与Llama 2完全相同的架构和分词器，这意味着TinyLlama可以在许多基于Llama构建的开源项目中即插即用。此外，TinyLlama仅具有11亿参数，这种轻量级的特性使其能够适用于对计算和内存要求较低的众多应用场景。

🚀 快速开始

项目链接：https://github.com/jzhang38/TinyLlama

✨ 主要特性

预训练目标宏大：目标是在3万亿个标记上预训练一个11亿参数的Llama模型。
训练效率高：通过优化，使用16块A100 - 40G GPU可在90天内完成训练。
兼容性强：采用与Llama 2相同的架构和分词器，可在基于Llama的开源项目中直接使用。
模型轻量：仅11亿参数，适用于对计算和内存要求较低的应用。
多语言能力：虽然微调数据仅为Python，但模型在C、Java等其他语言上也保留了一定能力。
可作为辅助模型：可作为草稿模型对CodeLlama系列等更大的模型进行推测解码。

📚 详细文档

本模型详情

此模型是基于5000亿标记的TinyLlama检查点，使用来自starcoderdata的另外70亿条Python数据进行微调（或称为继续预训练）得到的代码语言模型。

尽管微调数据仅为Python，但该模型在C、Java等许多其他语言上仍保留了一定能力。

在HumanEval基准测试中的准确率为14%。

它可以作为草稿模型对CodeLlama系列等更大的模型进行推测解码。

📄 许可证

本项目采用Apache - 2.0许可证。

📦 训练数据

属性	详情
模型类型	基于TinyLlama检查点微调的代码语言模型
训练数据	cerebras/SlimPajama - 627B、bigcode/starcoderdata（其中用于微调的是starcoderdata中的70亿条Python数据）