LaMini-GPT-1.5B开源大语言模型 - 免费部署精准完成指令跟随任务

首页

Lamini GPT 1.5B

由 MBZUAI 开发

LaMini-GPT-1.5B是基于GPT-2-xl架构微调的大型语言模型，属于LaMini-LM系列，专注于指令跟随任务

大型语言模型

Transformers

英语#指令微调模型 #自然语言生成 #多样化蒸馏

下载量 365

发布时间 : 4/16/2023

模型简介

该模型是在包含258万条指令的LaMini-instruction数据集上对GPT-2-xl进行微调的版本，擅长响应自然语言指令

模型特点

指令微调优化

在258万条多样化指令数据上进行微调，显著提升指令理解和执行能力

高效推理

1.5B参数规模在保持良好性能的同时实现相对高效的推理

多样化任务支持

能够处理问答、建议生成、内容创作等多种自然语言任务

模型能力

自然语言理解

指令跟随

文本生成

问答系统

内容创作

使用案例

智能助手

健康建议生成

根据用户健康需求提供个性化建议

可生成结构化的健康生活方式建议

教育应用

学习指导

回答学生问题并提供学习资源建议

能生成教育性内容和学习路径建议

🚀 LaMini-GPT-1.5B

LaMini-GPT-1.5B是LaMini-LM模型系列中的一员，该模型基于大规模指令进行蒸馏，能有效完成自然语言指令响应任务，在多种NLP下游任务中表现出色。

本模型是论文 "LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions" 中LaMini-LM模型系列的一部分。它是 gpt2-xl 在 LaMini-instruction 数据集上的微调版本，该数据集包含258万个用于指令微调的样本。有关我们数据集的更多信息，请参考项目仓库。

你可以查看LaMini-LM系列的其他模型，带有 ✩ 的模型在其规模/架构下具有最佳的整体性能，因此我们推荐使用它们。更多细节可在我们的论文中查看。

基础模型	LaMini-LM系列（参数数量）
T5	LaMini-T5-61M LaMini-T5-223M LaMini-T5-738M
Flan-T5	LaMini-Flan-T5-77M✩ LaMini-Flan-T5-248M✩ LaMini-Flan-T5-783M✩
Cerebras-GPT	LaMini-Cerebras-111M LaMini-Cerebras-256M LaMini-Cerebras-590M LaMini-Cerebras-1.3B
GPT-2	LaMini-GPT-124M✩ LaMini-GPT-774M✩ LaMini-GPT-1.5B✩
GPT-Neo	LaMini-Neo-125M LaMini-Neo-1.3B
GPT-J	即将推出
LLaMA	即将推出

🚀 快速开始

预期用途

我们建议使用该模型来响应自然语言编写的人类指令。由于这个仅解码器模型是使用包装文本进行微调的，我们建议使用相同的包装文本以获得最佳性能。请参考右侧的示例或下面的代码。

我们现在向你展示如何使用HuggingFace的 pipeline() 加载和使用我们的模型。

# pip install -q transformers
from transformers import pipeline

checkpoint = "{model_name}" 

model = pipeline('text-generation', model = checkpoint)

instruction = 'Please let me know your thoughts on the given place and why you think it deserves to be visited: \n"Barcelona, Spain"'

input_prompt = f"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:"

generated_text = model(input_prompt, max_length=512, do_sample=True)[0]['generated_text']

print("Response", generated_text)

📚 详细文档

训练过程

我们使用 gpt2-xl 进行初始化，并在我们的 LaMini-instruction 数据集上对其进行微调。其总参数数量为15亿。

训练超参数

文档暂未提供训练超参数的具体内容。

评估

我们进行了两组评估：对下游NLP任务的自动评估和对面向用户指令的人工评估。更多详细信息，请参考我们的论文。

局限性

需要更多信息。

📄 许可证

本模型采用CC By NC 4.0许可证。

📖 引用

@article{lamini-lm,
  author       = {Minghao Wu and
                  Abdul Waheed and
                  Chiyu Zhang and
                  Muhammad Abdul-Mageed and
                  Alham Fikri Aji
                  },
  title        = {LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions},
  journal      = {CoRR},
  volume       = {abs/2304.14402},
  year         = {2023},
  url          = {https://arxiv.org/abs/2304.14402},
  eprinttype   = {arXiv},
  eprint       = {2304.14402}
}