Llama-2-13B-chat-GPTQ开源对话大模型 - 免费部署支持英文文本生成

首页

Llama 2 13B Chat GPTQ

由 TheBloke 开发

Llama 2 13B Chat 是由 Meta 开发的大语言模型，专注于对话任务，具有 130 亿参数，支持英文文本生成。

大型语言模型

Transformers

英语#多轮对话优化 #安全内容生成 #13B参数量

下载量 7,821

发布时间 : 7/18/2023

模型简介

这是一个基于 Llama 2 架构的 130 亿参数对话模型，经过优化用于安全、有帮助的对话交互。

模型特点

安全对话

模型经过专门训练，避免生成有害、不道德或有偏见的内容

高质量量化

提供多种 GPTQ 量化选项，平衡推理质量和 VRAM 使用

长上下文支持

支持 4096 tokens 的上下文长度

模型能力

对话生成

文本补全

问答系统

内容创作

使用案例

客服系统

智能客服助手

用于处理客户咨询和常见问题解答

提供准确、安全的回答

教育

学习助手

帮助学生解答学习问题

提供教育性、安全的解释

🚀 Llama 2 13B Chat - GPTQ

本项目提供了 Meta公司的Llama 2 13B-chat 的GPTQ模型文件，可用于高效的推理任务。

🚀 快速开始

下载模型

text-generation-webui：在下载名称后添加 :branch，例如 TheBloke/Llama-2-13B-chat-GPTQ:main。
Git：使用以下命令克隆指定分支：

git clone --single-branch --branch main https://huggingface.co/TheBloke/Llama-2-13B-chat-GPTQ

Python Transformers代码：使用 revision 参数指定分支。

在text-generation-webui中使用

确保使用的是 text-generation-webui 的最新版本。
点击 Model tab。
在 Download custom model or LoRA 中输入 TheBloke/Llama-2-13B-chat-GPTQ。若要从特定分支下载，可输入如 TheBloke/Llama-2-13B-chat-GPTQ:main。
点击 Download，模型开始下载，完成后显示 "Done"。
点击左上角 Model 旁边的刷新图标。
在 Model 下拉菜单中选择刚下载的模型 Llama-2-13B-chat-GPTQ，模型将自动加载，即可使用。
若需要自定义设置，设置完成后点击 Save settings for this model，再点击右上角的 Reload the Model。
点击 Text Generation tab 并输入提示词开始使用。

在Python代码中使用

安装必要的包

需要安装Transformers 4.32.0或更高版本、Optimum 1.12.0或更高版本以及AutoGPTQ 0.4.2或更高版本：

pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 若使用CUDA 11.7，使用cu117

若使用预构建的轮子安装AutoGPTQ有问题，可从源代码安装：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .

对于CodeLlama模型

必须使用Transformers 4.33.0或更高版本。若4.33.0尚未发布，需要从源代码安装Transformers：

pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git

使用代码示例

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/Llama-2-13B-chat-GPTQ"
# 若要使用不同的分支，修改revision参数
# 例如：revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''[INST] <<SYS>>
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe.  Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
<</SYS>>
{prompt}[/INST]

'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 也可以使用Transformers的pipeline进行推理
print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

✨ 主要特性

多种量化参数选项：提供多个GPTQ量化参数排列，可根据硬件和需求选择最佳参数。
多平台兼容性：与AutoGPTQ、Occ4m's GPTQ-for-LLaMa fork、ExLlama（4位Llama模型）和Huggingface Text Generation Inference (TGI)兼容。

📦 安装指南

安装必要的包

pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 若使用CUDA 11.7，使用cu117

若使用预构建的轮子安装AutoGPTQ有问题，可从源代码安装：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .

📚 详细文档

模型信息

模型创建者：Meta Llama 2
原始模型：Llama 2 13B Chat

可用的模型仓库

提示词模板：Llama-2-Chat

[INST] <<SYS>>
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe.  Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
<</SYS>>
{prompt}[/INST]

提供的文件和GPTQ参数

提供多个量化参数，可根据硬件和需求选择最佳参数。每个单独的量化版本位于不同的分支中。所有近期的GPTQ文件都使用AutoGPTQ制作，非主分支中的所有文件也使用AutoGPTQ制作。主分支中2023年8月之前上传的文件使用GPTQ-for-LLaMa制作。

分支	比特数	分组大小	激活顺序	阻尼百分比	GPTQ数据集	序列长度	大小	ExLlama兼容性	描述
main	4	128	否	0.01	wikitext	4096	7.26 GB	是	4位，无激活顺序，分组大小128g。
gptq-4bit-32g-actorder_True	4	32	是	0.01	wikitext	4096	8.00 GB	是	4位，有激活顺序，分组大小32g。推理质量最高，但VRAM使用量最大。
gptq-4bit-64g-actorder_True	4	64	是	0.01	wikitext	4096	7.51 GB	是	4位，有激活顺序，分组大小64g。VRAM使用量比32g小，但精度略低。
gptq-4bit-128g-actorder_True	4	128	是	0.01	wikitext	4096	7.26 GB	是	4位，有激活顺序，分组大小128g。VRAM使用量比64g更小，但精度略低。
gptq-8bit-128g-actorder_True	8	128	是	0.01	wikitext	4096	13.65 GB	否	8位，分组大小128g以提高推理质量，有激活顺序以提高精度。
gptq-8bit-64g-actorder_True	8	64	是	0.01	wikitext	4096	13.95 GB	否	8位，分组大小64g和激活顺序以提高推理质量。AutoGPTQ CUDA速度较慢。
gptq-8bit-128g-actorder_False	8	128	否	0.01	wikitext	4096	13.65 GB	否	8位，分组大小128g以提高推理质量，无激活顺序以提高AutoGPTQ速度。
gptq-8bit--1g-actorder_True	8	无	是	0.01	wikitext	4096	13.36 GB	否	8位，有激活顺序。无分组大小，以降低VRAM需求。

GPTQ参数解释

比特数：量化模型的比特大小。
分组大小：GPTQ分组大小。数值越高，VRAM使用量越少，但量化精度越低。“无”是最低可能值。
激活顺序：真或假。也称为 desc_act。真会导致更好的量化精度。一些GPTQ客户端在使用激活顺序和分组大小的模型时遇到过问题，但现在一般已解决。
阻尼百分比：影响量化样本处理的GPTQ参数。默认值为0.01，但0.1会导致略高的精度。
GPTQ数据集：用于量化的数据集。使用更适合模型训练的数据集可以提高量化精度。请注意，GPTQ数据集与用于训练模型的数据集不同，请参考原始模型仓库了解训练数据集的详细信息。
序列长度：用于量化的数据集序列长度。理想情况下，这与模型序列长度相同。对于一些非常长序列的模型（16K以上），可能需要使用较低的序列长度。请注意，较低的序列长度不会限制量化模型的序列长度，它只影响较长推理序列的量化精度。
ExLlama兼容性：该文件是否可以使用ExLlama加载，目前ExLlama仅支持4位的Llama模型。

🔧 技术细节

训练因素

使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、注释和评估也在第三方云计算上进行。

碳足迹

预训练在A100 - 80GB类型的硬件上累计使用了330万个GPU小时的计算资源（TDP为350 - 400W）。估计总排放量为539 tCO2eq，其中100%由Meta的可持续发展计划抵消。

模型	时间（GPU小时）	功耗（W）	碳排放（tCO₂eq）
Llama 2 7B	184320	400	31.22
Llama 2 13B	368640	400	62.44
Llama 2 70B	1720320	400	291.42
总计	3311616		539.00

训练数据

Llama 2在来自公开可用来源的2万亿个标记的数据上进行了预训练。微调数据包括公开可用的指令数据集，以及超过一百万个新的人工注释示例。预训练和微调数据集均不包括Meta用户数据。预训练数据截止到2022年9月，但一些微调数据更新至2023年7月。

评估结果

模型	大小	代码	常识推理	世界知识	阅读理解	数学	MMLU	BBH	AGI评估
Llama 1	7B	14.1	60.8	46.2	58.5	6.95	35.1	30.3	23.9
Llama 1	13B	18.9	66.1	52.6	62.3	10.9	46.9	37.0	33.9
Llama 1	33B	26.0	70.0	58.4	67.6	21.4	57.8	39.8	41.7
Llama 1	65B	30.7	70.7	60.5	68.6	30.8	63.4	43.5	47.6
Llama 2	7B	16.8	63.9	48.9	61.3	14.6	45.3	32.6	29.3
Llama 2	13B	24.5	66.9	55.4	65.8	28.7	54.8	39.4	39.1
Llama 2	70B	37.5	71.9	63.6	69.4	35.2	68.9	51.2	54.2

		真实问答	毒性生成
Llama 1	7B	27.42	23.00
Llama 1	13B	41.74	23.08
Llama 1	33B	44.19	22.57
Llama 1	65B	48.71	21.77
Llama 2	7B	33.29	21.25
Llama 2	13B	41.86	26.10
Llama 2	70B	50.18	24.60

		真实问答	毒性生成
Llama - 2 - 聊天	7B	57.04	0.00
Llama - 2 - 聊天	13B	62.18	0.00
Llama - 2 - 聊天	70B	64.14	0.01

📄 许可证

使用此模型受Meta许可证的约束。若要下载模型权重和分词器，请访问网站并接受许可协议后再申请访问。

Discord

如需进一步支持，或讨论这些模型和人工智能相关话题，欢迎加入： TheBloke AI的Discord服务器

感谢与贡献方式

感谢 chirper.ai 团队！感谢 [gpus.llm - utils.org](llm - utils) 的Clay！

很多人询问是否可以进行贡献。我喜欢提供模型并帮助他人，也希望能花更多时间做这些事，以及开展新的项目，如微调/训练。

如果您有能力且愿意贡献，我将不胜感激，这将帮助我提供更多模型，并开展新的人工智能项目。捐赠者将在所有AI/LLM/模型问题和请求上获得优先支持，访问私人Discord房间，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko - Fi: https://ko - fi.com/TheBlokeAI

特别感谢：Aemon Algiz。

Patreon特别提及：Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann - Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeffrey Morgan, Spiking Neurons AB, Edmond Seymore, Alexandros Triantafyllidis, Lone Striker, Cap'n Zoog, Nikolai Manek, danny, ya boyyy, Derek Yates, usrbinkat, Mandus, TL, Nathan LeClaire, subjectnull, Imad Khwaja, webtim, Raven Klaugh, Asp the Wyvern, Gabriel Puliatti, Caitlyn Gatomon, Joseph William Delisle, Jonathan Leane, Luke Pendergrass, SuperWojo, Sebastain Graf, Will Dee, Fred von Graf, Andrey, Dan Guido, Daniel P. Andersen, Nitin Borwankar, Elle, Vitor Caleffi, biorpg, jjj, NimbleBox.ai, Pieter, Matthew Berman, terasurfer, Michael Davis, Alex, Stanislav Ovsiannikov

感谢所有慷慨的赞助者和捐赠者！再次感谢a16z的慷慨资助。

原始模型卡片：Meta的Llama 2 13B - 聊天

Llama 2简介

Llama 2是一系列预训练和微调的生成式文本模型，参数规模从70亿到700亿不等。这是13B微调模型的仓库，针对对话用例进行了优化，并转换为Hugging Face Transformers格式。其他模型的链接可在底部索引中找到。

模型详情

模型开发者：Meta
变体：Llama 2有7B、13B和70B等不同参数规模，以及预训练和微调版本。
输入：模型仅接受文本输入。
输出：模型仅生成文本输出。
模型架构：Llama 2是一种自回归语言模型，使用优化的Transformer架构。微调版本使用监督微调（SFT）和基于人类反馈的强化学习（RLHF）来符合人类对有用性和安全性的偏好。
训练数据：新的公开可用在线数据混合。
参数数量：7B、13B、70B。
内容长度：4k。
分组查询注意力（GQA）：70B模型使用GQA以提高推理可扩展性。
标记数量：预训练数据为2.0T。
学习率：7B和13B模型为3.0 x 10⁻⁴，70B模型为1.5 x 10⁻⁴。
模型日期：Llama 2于2023年1月至7月期间进行训练。
状态：这是一个在离线数据集上训练的静态模型。随着我们根据社区反馈改进模型安全性，未来将发布微调模型的新版本。
许可证：可在此处获取自定义商业许可证。
研究论文："Llama - 2: Open Foundation and Fine - tuned Chat Models"

预期用途

预期用例：Llama 2旨在用于英语的商业和研究用途。微调模型适用于类似助手的聊天，而预训练模型可用于各种自然语言生成任务。为获得聊天版本的预期功能和性能，需要遵循特定的格式，包括 INST 和 <<SYS>> 标签、BOS 和 EOS 标记，以及它们之间的空格和换行符（建议对输入调用 strip() 以避免双空格）。详细信息请参阅github上的参考代码：chat_completion。
超出范围的用途：以任何违反适用法律法规（包括贸易合规法律）的方式使用；使用英语以外的语言；以Llama 2的可接受使用政策和许可协议禁止的任何其他方式使用。

硬件和软件

训练因素：使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、注释和评估也在第三方云计算上进行。
碳足迹：预训练在A100 - 80GB类型的硬件上累计使用了330万个GPU小时的计算资源（TDP为350 - 400W）。估计总排放量为539 tCO₂eq，其中100%由Meta的可持续发展计划抵消。

训练数据

概述：Llama 2在来自公开可用来源的2万亿个标记的数据上进行了预训练。微调数据包括公开可用的指令数据集，以及超过一百万个新的人工注释示例。预训练和微调数据集均不包括Meta用户数据。
数据新鲜度：预训练数据截止到2022年9月，但一些微调数据更新至2023年7月。

评估结果

在标准学术基准测试中，Llama 2在多个指标上表现优于Llama 1。具体评估结果见上文表格。

伦理考虑和局限性

Llama 2是一项新技术，使用时存在风险。到目前为止的测试仅在英语中进行，无法涵盖所有场景。因此，与所有大语言模型一样，Llama 2的潜在输出无法提前预测，在某些情况下，模型可能会对用户提示产生不准确、有偏见或其他令人反感的响应。因此，在部署Llama 2的任何应用程序之前，开发者应针对特定应用进行安全测试和调优。请参阅负责任使用指南。

问题报告

请通过以下方式报告模型的任何软件“漏洞”或其他问题：

报告模型问题：github.com/facebookresearch/llama
报告模型生成的有问题内容：developers.facebook.com/llama_output_feedback
报告漏洞和安全问题：facebook.com/whitehat/info

Llama模型索引

模型	Llama2	Llama2 - hf	Llama2 - 聊天	Llama2 - 聊天 - hf
7B	[链接](https://huggingface.co/llamaste/Llama - 2 - 7b)	[链接](https://huggingface.co/llamaste/Llama - 2 - 7b - hf)	[链接](https://huggingface.co/llamaste/Llama - 2 - 7b - chat)	[链接](https://huggingface.co/llamaste/Llama - 2 - 7b - chat - hf)
13B	[链接](https://huggingface.co/llamaste/Llama - 2 - 13b)	[链接](https://huggingface.co/llamaste/Llama - 2 - 13b - hf)	[链接](https://huggingface.co/llamaste/Llama - 2 - 13b - chat)	[链接](https://huggingface.co/llamaste/Llama - 2 - 13b - hf)
70B	[链接](https://huggingface.co/llamaste/Llama - 2 - 70b)	[链接](https://huggingface.co/llamaste/Llama - 2 - 70b - hf)	[链接](https://huggingface.co/llamaste/Llama - 2 - 70b - chat)	[链接](https://huggingface.co/llamaste/Llama - 2 - 70b - hf)