首页

Lamini Flan T5 783M

由 MBZUAI 开发

LaMini-Flan-T5-783M是基于google/flan-t5-large在LaMini-instruction数据集上微调的指令跟随模型，参数量为783M，属于LaMini-LM系列之一。

大型语言模型

Transformers

英语#指令微调模型 #大规模指令训练 #自然语言生成

下载量 2,694

发布时间 : 4/17/2023

模型简介

该模型主要用于响应自然语言书写的人类指令，经过大规模指令微调，能够生成符合人类预期的文本回复。

模型特点

大规模指令微调

在包含258万条指令的LaMini-instruction数据集上进行微调，增强了指令跟随能力

高效蒸馏

作为LaMini-LM系列模型之一，通过知识蒸馏技术保持性能的同时减小模型规模

多样化应用

能够处理多种类型的自然语言指令和查询

模型能力

文本生成

指令理解与响应

问答系统

使用案例

智能助手

健康建议生成

根据用户提问生成健康生活方式建议

能提供合理的健康建议

旅游推荐

景点评价生成

根据地点名称生成旅游评价和建议

能生成有说服力的旅游推荐

🚀 LaMini-Flan-T5-783M

LaMini-Flan-T5-783M 是 LaMini-LM 模型系列中的一员，基于大规模指令进行蒸馏得到。它在文本生成任务上表现出色，能根据自然语言指令生成高质量的回复。

🚀 快速开始

本模型推荐用于响应自然语言编写的人类指令。下面展示如何使用 HuggingFace 的 pipeline() 加载和使用该模型：

# pip install -q transformers
from transformers import pipeline

checkpoint = "{model_name}"

model = pipeline('text2text-generation', model = checkpoint)

input_prompt = 'Please let me know your thoughts on the given place and why you think it deserves to be visited: \n"Barcelona, Spain"'
generated_text = model(input_prompt, max_length=512, do_sample=True)[0]['generated_text']

print("Response", generated_text)

✨ 主要特性

指令微调：在包含 258 万个样本的 LaMini-instruction 数据集上进行微调，能更好地响应自然语言指令。
模型系列丰富：LaMini-LM 系列包含多种基于不同基础模型的变体，可根据需求选择。

📦 安装指南

使用前需安装必要的库，可通过以下命令安装：

pip install -q transformers

💻 使用示例

基础用法

# pip install -q transformers
from transformers import pipeline

checkpoint = "{model_name}"

model = pipeline('text2text-generation', model = checkpoint)

input_prompt = 'Please let me know your thoughts on the given place and why you think it deserves to be visited: \n"Barcelona, Spain"'
generated_text = model(input_prompt, max_length=512, do_sample=True)[0]['generated_text']

print("Response", generated_text)

📚 详细文档

模型信息

本模型是 google/flan-t5-large 在 LaMini-instruction 数据集上的微调版本，总参数数量为 7.83 亿。

模型系列

你可以查看 LaMini-LM 系列的其他模型，带有 ✩ 的模型在其规模/架构下整体性能最佳，推荐使用。更多细节可参考论文。

基础模型	LaMini-LM 系列（参数数量）
T5	LaMini-T5-61M、LaMini-T5-223M、LaMini-T5-738M
Flan-T5	LaMini-Flan-T5-77M✩、LaMini-Flan-T5-248M✩、LaMini-Flan-T5-783M✩
Cerebras-GPT	LaMini-Cerebras-111M、LaMini-Cerebras-256M、LaMini-Cerebras-590M、LaMini-Cerebras-1.3B
GPT-2	LaMini-GPT-124M✩、LaMini-GPT-774M✩、LaMini-GPT-1.5B✩
GPT-Neo	LaMini-Neo-125M、LaMini-Neo-1.3B
GPT-J	即将推出
LLaMA	即将推出

训练过程

模型使用 [google/flan-t5-large](https://huggingface.co/google/flan-t5-large) 初始化，并在 [LaMini-instruction 数据集](https://huggingface.co/datasets/MBZUAI/LaMini-instruction) 上进行微调。

训练超参数

训练过程中使用了以下超参数：

学习率：0.0005
训练批次大小：128
评估批次大小：64
随机种子：42
梯度累积步数：4
总训练批次大小：512
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型：线性
训练轮数：5

评估

我们进行了两组评估：下游 NLP 任务的自动评估和面向用户指令的人工评估。更多细节请参考论文。

局限性

更多信息待补充。

🔧 技术细节

本模型基于 Transformer 架构，通过在大规模指令数据集上的微调，学习到了自然语言的模式和语义信息，从而能够更好地响应人类指令。

📄 许可证

本模型采用 CC By NC 4.0 许可证。

引用

@article{lamini-lm,
  author       = {Minghao Wu and
                  Abdul Waheed and
                  Chiyu Zhang and
                  Muhammad Abdul-Mageed and
                  Alham Fikri Aji
                  },
  title        = {LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions},
  journal      = {CoRR},
  volume       = {abs/2304.14402},
  year         = {2023},
  url          = {https://arxiv.org/abs/2304.14402},
  eprinttype   = {arXiv},
  eprint       = {2304.14402}
}