🚀 LaMini-GPT-1.5B
LaMini-GPT-1.5B是LaMini-LM模型系列中的一員,該模型基於大規模指令進行蒸餾,能有效完成自然語言指令響應任務,在多種NLP下游任務中表現出色。

本模型是論文 "LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions" 中LaMini-LM模型系列的一部分。它是 gpt2-xl 在 LaMini-instruction 數據集 上的微調版本,該數據集包含258萬個用於指令微調的樣本。有關我們數據集的更多信息,請參考 項目倉庫。
你可以查看LaMini-LM系列的其他模型,帶有 ✩ 的模型在其規模/架構下具有最佳的整體性能,因此我們推薦使用它們。更多細節可在我們的論文中查看。
🚀 快速開始
預期用途
我們建議使用該模型來響應自然語言編寫的人類指令。由於這個僅解碼器模型是使用包裝文本進行微調的,我們建議使用相同的包裝文本以獲得最佳性能。請參考右側的示例或下面的代碼。
我們現在向你展示如何使用HuggingFace的 pipeline()
加載和使用我們的模型。
from transformers import pipeline
checkpoint = "{model_name}"
model = pipeline('text-generation', model = checkpoint)
instruction = 'Please let me know your thoughts on the given place and why you think it deserves to be visited: \n"Barcelona, Spain"'
input_prompt = f"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:"
generated_text = model(input_prompt, max_length=512, do_sample=True)[0]['generated_text']
print("Response", generated_text)
📚 詳細文檔
訓練過程
我們使用 gpt2-xl 進行初始化,並在我們的 LaMini-instruction 數據集 上對其進行微調。其總參數數量為15億。
訓練超參數
文檔暫未提供訓練超參數的具體內容。
評估
我們進行了兩組評估:對下游NLP任務的自動評估和對面向用戶指令的人工評估。更多詳細信息,請參考我們的 論文。
侷限性
需要更多信息。
📄 許可證
本模型採用CC By NC 4.0許可證。
📖 引用
@article{lamini-lm,
author = {Minghao Wu and
Abdul Waheed and
Chiyu Zhang and
Muhammad Abdul-Mageed and
Alham Fikri Aji
},
title = {LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions},
journal = {CoRR},
volume = {abs/2304.14402},
year = {2023},
url = {https://arxiv.org/abs/2304.14402},
eprinttype = {arXiv},
eprint = {2304.14402}
}