LaMini-GPT-774M開源語言模型 - 免費部署處理自然語言指令響應任務

首頁

Lamini GPT 774M

由MBZUAI開發

基於gpt2-large架構，在258萬條指令調優樣本上微調而成的774M參數語言模型，適用於自然語言指令響應任務

大型語言模型

Transformers

英語#指令微調 #文本生成 #大規模蒸餾

下載量 862

發布時間 : 4/15/2023

模型概述

該模型是LaMini-LM系列中的GPT-2架構模型，專門針對指令響應任務進行優化，能夠生成符合人類指令的自然語言文本

模型特點

指令調優優化

在包含258萬條指令的專用數據集上微調，顯著提升指令遵循能力

輕量級架構

相比同類大模型，參數量適中（774M），在資源消耗和性能間取得平衡

格式兼容性

支持標準指令-回覆交互格式，與現有對話系統無縫集成

模型能力

自然語言理解

指令響應生成

文本補全

知識問答

使用案例

智能助手

健康建議生成

根據用戶健康諮詢生成個性化建議

示例顯示能生成結構化的健康指導方案

內容創作

旅遊推薦

基於地點生成旅遊建議和評價

可輸出包含景點、美食等要素的推薦內容

🚀 LaMini-GPT-774M

LaMini-GPT-774M是LaMini-LM模型系列中的一員，該系列模型旨在基於大規模指令生成多樣化的蒸餾模型。此模型通過在包含258萬個樣本的LaMini指令數據集上對gpt2-large進行微調得到，可用於自然語言指令響應任務。

✨ 主要特性

屬於LaMini-LM模型系列，該系列在論文 "LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions" 中有詳細介紹。
基於 gpt2-large 進行微調，在 LaMini-instruction dataset 上訓練，總參數達774M。
推薦用於自然語言指令響應任務，使用特定包裝文本可獲得最佳性能。

LaMini-LM系列其他模型

你可以查看LaMini-LM系列的其他模型，帶有 ✩ 的模型在其規模/架構下整體性能最佳，推薦使用。更多細節可參考我們的論文。

基礎模型	LaMini-LM系列（參數數量）
T5	LaMini-T5-61M、LaMini-T5-223M、LaMini-T5-738M
Flan-T5	LaMini-Flan-T5-77M✩、LaMini-Flan-T5-248M✩、LaMini-Flan-T5-783M✩
Cerebras-GPT	LaMini-Cerebras-111M、LaMini-Cerebras-256M、LaMini-Cerebras-590M、LaMini-Cerebras-1.3B
GPT-2	LaMini-GPT-124M✩、LaMini-GPT-774M✩、LaMini-GPT-1.5B✩
GPT-Neo	LaMini-Neo-125M、LaMini-Neo-1.3B
GPT-J	即將推出
LLaMA	即將推出

🚀 快速開始

使用說明

我們推薦使用該模型來響應以自然語言編寫的人類指令。由於這個僅解碼器模型是使用包裝文本進行微調的，建議使用相同的包裝文本以獲得最佳性能。

加載和使用模型

以下是使用HuggingFace pipeline() 加載和使用我們模型的示例代碼：

# pip install -q transformers
from transformers import pipeline

checkpoint = "{model_name}" 

model = pipeline('text-generation', model = checkpoint)

instruction = 'Please let me know your thoughts on the given place and why you think it deserves to be visited: \n"Barcelona, Spain"'

input_prompt = f"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:"

generated_text = model(input_prompt, max_length=512, do_sample=True)[0]['generated_text']

print("Response", generated_text)

🔧 技術細節

訓練流程

我們使用 gpt2-large 進行初始化，並在 LaMini-instruction dataset 上對其進行微調。該模型的總參數數量為7.74億。

訓練超參數

文檔未提供相關內容。

📚 詳細文檔

評估

我們進行了兩組評估：對下游NLP任務的自動評估和對面向用戶指令的人工評估。更多詳細信息，請參考我們的論文。

侷限性

更多信息待補充。

📄 許可證

本模型採用CC By NC 4.0許可證。

📖 引用

@article{lamini-lm,
  author       = {Minghao Wu and
                  Abdul Waheed and
                  Chiyu Zhang and
                  Muhammad Abdul-Mageed and
                  Alham Fikri Aji
                  },
  title        = {LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions},
  journal      = {CoRR},
  volume       = {abs/2304.14402},
  year         = {2023},
  url          = {https://arxiv.org/abs/2304.14402},
  eprinttype   = {arXiv},
  eprint       = {2304.14402}
}