LiteLlama-460M-1T开源语言模型 - 精简版免费使用，助力多样文本任务

首页

Litellama 460M 1T

由 ahxt 开发

LiteLlama是Meta AI的LLaMa 2精简版，仅含4.6亿参数并使用1万亿token训练的开源语言模型

大型语言模型

Transformers

英语开源协议:MIT #精简Llama2复现 #小参数大语料 #英文文本生成

下载量 1,225

发布时间 : 1/7/2024

模型简介

一个轻量级开源语言模型，复现LLaMa 2架构但显著缩小规模，适用于文本生成和理解任务

模型特点

轻量高效

仅4.6亿参数，比原版LLaMa 2显著缩小规模

大规模训练

使用约1万亿token进行训练，确保模型性能

开源可用

基于MIT许可证发布，可自由使用和修改

模型能力

文本生成

问答系统

语言理解

使用案例

教育

知识问答

回答各类常识性问题

能准确回答如'最大的鸟类是什么'等基础问题

研究

轻量级语言模型研究

作为小型语言模型的研究基准

在MMLU等基准测试中表现良好

🚀 LiteLlama：缩减规模的Llama

LiteLlama是对Meta AI的LLaMa 2进行的开源复刻。不过，它的模型规模大幅缩减，例如LiteLlama - 460M - 1T仅具有4.6亿个参数，并使用1万亿个标记进行训练。

🚀 快速开始

使用HuggingFace Transformers

实验性的模型检查点可以直接通过Transformers库加载。以下代码片段展示了如何加载我们的实验模型并使用它生成文本：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_path = 'ahxt/LiteLlama-460M-1T'

model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.eval()

prompt = 'Q: What is the largest bird?\nA:'
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
tokens = model.generate(input_ids, max_length=20)
print( tokenizer.decode(tokens[0].tolist(), skip_special_tokens=True) )
# Q: What is the largest bird?\nA: The largest bird is a black-headed gull.

✨ 主要特性

对Meta AI的LLaMa 2进行开源复刻。
大幅缩减模型规模，减少资源占用。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_path = 'ahxt/LiteLlama-460M-1T'

model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.eval()

prompt = 'Q: What is the largest bird?\nA:'
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
tokens = model.generate(input_ids, max_length=20)
print( tokenizer.decode(tokens[0].tolist(), skip_special_tokens=True) )
# Q: What is the largest bird?\nA: The largest bird is a black-headed gull.

高级用法

文档未提及高级用法代码示例，故跳过此部分。

📚 详细文档

数据集和分词

我们在RedPajama数据集的部分数据上训练模型。使用GPT2Tokenizer对文本进行分词。

训练详情

模型使用约1万亿个标记（0.98万亿）进行训练。标记数量 = 步数 * 长度 * 批量大小 = 499679 * 1024 * 192 = 98240888832 ≈ 0.98万亿。训练曲线可在这个WandB项目中查看。

评估

我们在MMLU任务上评估模型。

模型	参数数量	零样本	5样本
llama	70亿	28.46	35.05
openllama	30亿	24.90	26.71
TinyLlama - 1.1B - step - 50K - 105b	11亿	19.00	26.53
LiteLlama - 460M - 1T	4.6亿	21.13	26.39

开源大语言模型排行榜评估结果

详细结果可在此处查看。

指标	值
平均值	26.65
ARC (25样本)	24.91
HellaSwag (10样本)	38.47
MMLU (5样本)	26.17
TruthfulQA (零样本)	41.59
Winogrande (5样本)	49.88
GSM8K (5样本)	0.0
DROP (3样本)	5.51