🚀 LaMini-GPT-1.5B
LaMini-GPT-1.5B是LaMini-LM模型系列中的一员,该模型基于大规模指令进行蒸馏,能有效完成自然语言指令响应任务,在多种NLP下游任务中表现出色。

本模型是论文 "LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions" 中LaMini-LM模型系列的一部分。它是 gpt2-xl 在 LaMini-instruction 数据集 上的微调版本,该数据集包含258万个用于指令微调的样本。有关我们数据集的更多信息,请参考 项目仓库。
你可以查看LaMini-LM系列的其他模型,带有 ✩ 的模型在其规模/架构下具有最佳的整体性能,因此我们推荐使用它们。更多细节可在我们的论文中查看。
🚀 快速开始
预期用途
我们建议使用该模型来响应自然语言编写的人类指令。由于这个仅解码器模型是使用包装文本进行微调的,我们建议使用相同的包装文本以获得最佳性能。请参考右侧的示例或下面的代码。
我们现在向你展示如何使用HuggingFace的 pipeline()
加载和使用我们的模型。
from transformers import pipeline
checkpoint = "{model_name}"
model = pipeline('text-generation', model = checkpoint)
instruction = 'Please let me know your thoughts on the given place and why you think it deserves to be visited: \n"Barcelona, Spain"'
input_prompt = f"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:"
generated_text = model(input_prompt, max_length=512, do_sample=True)[0]['generated_text']
print("Response", generated_text)
📚 详细文档
训练过程
我们使用 gpt2-xl 进行初始化,并在我们的 LaMini-instruction 数据集 上对其进行微调。其总参数数量为15亿。
训练超参数
文档暂未提供训练超参数的具体内容。
评估
我们进行了两组评估:对下游NLP任务的自动评估和对面向用户指令的人工评估。更多详细信息,请参考我们的 论文。
局限性
需要更多信息。
📄 许可证
本模型采用CC By NC 4.0许可证。
📖 引用
@article{lamini-lm,
author = {Minghao Wu and
Abdul Waheed and
Chiyu Zhang and
Muhammad Abdul-Mageed and
Alham Fikri Aji
},
title = {LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions},
journal = {CoRR},
volume = {abs/2304.14402},
year = {2023},
url = {https://arxiv.org/abs/2304.14402},
eprinttype = {arXiv},
eprint = {2304.14402}
}