模型简介
模型特点
模型能力
使用案例
🚀 Llama 2 13B Chat - GPTQ
本项目提供了 Meta公司的Llama 2 13B-chat 的GPTQ模型文件,可用于高效的推理任务。
🚀 快速开始
下载模型
- text-generation-webui:在下载名称后添加
:branch
,例如TheBloke/Llama-2-13B-chat-GPTQ:main
。 - Git:使用以下命令克隆指定分支:
git clone --single-branch --branch main https://huggingface.co/TheBloke/Llama-2-13B-chat-GPTQ
- Python Transformers代码:使用
revision
参数指定分支。
在text-generation-webui中使用
- 确保使用的是 text-generation-webui 的最新版本。
- 点击 Model tab。
- 在 Download custom model or LoRA 中输入
TheBloke/Llama-2-13B-chat-GPTQ
。若要从特定分支下载,可输入如TheBloke/Llama-2-13B-chat-GPTQ:main
。 - 点击 Download,模型开始下载,完成后显示 "Done"。
- 点击左上角 Model 旁边的刷新图标。
- 在 Model 下拉菜单中选择刚下载的模型
Llama-2-13B-chat-GPTQ
,模型将自动加载,即可使用。 - 若需要自定义设置,设置完成后点击 Save settings for this model,再点击右上角的 Reload the Model。
- 点击 Text Generation tab 并输入提示词开始使用。
在Python代码中使用
安装必要的包
需要安装Transformers 4.32.0或更高版本、Optimum 1.12.0或更高版本以及AutoGPTQ 0.4.2或更高版本:
pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 若使用CUDA 11.7,使用cu117
若使用预构建的轮子安装AutoGPTQ有问题,可从源代码安装:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .
对于CodeLlama模型
必须使用Transformers 4.33.0或更高版本。若4.33.0尚未发布,需要从源代码安装Transformers:
pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git
使用代码示例
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/Llama-2-13B-chat-GPTQ"
# 若要使用不同的分支,修改revision参数
# 例如:revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''[INST] <<SYS>>
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
<</SYS>>
{prompt}[/INST]
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 也可以使用Transformers的pipeline进行推理
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
✨ 主要特性
- 多种量化参数选项:提供多个GPTQ量化参数排列,可根据硬件和需求选择最佳参数。
- 多平台兼容性:与AutoGPTQ、Occ4m's GPTQ-for-LLaMa fork、ExLlama(4位Llama模型)和Huggingface Text Generation Inference (TGI)兼容。
📦 安装指南
安装必要的包
pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 若使用CUDA 11.7,使用cu117
若使用预构建的轮子安装AutoGPTQ有问题,可从源代码安装:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .
📚 详细文档
模型信息
- 模型创建者:Meta Llama 2
- 原始模型:Llama 2 13B Chat
可用的模型仓库
- 用于GPU推理的AWQ模型
- 具有多个量化参数选项的GPU推理GPTQ模型
- 用于CPU+GPU推理的2、3、4、5、6和8位GGUF模型
- Meta Llama 2的原始未量化fp16 PyTorch格式模型,用于GPU推理和进一步转换
提示词模板:Llama-2-Chat
[INST] <<SYS>>
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
<</SYS>>
{prompt}[/INST]
提供的文件和GPTQ参数
提供多个量化参数,可根据硬件和需求选择最佳参数。每个单独的量化版本位于不同的分支中。所有近期的GPTQ文件都使用AutoGPTQ制作,非主分支中的所有文件也使用AutoGPTQ制作。主分支中2023年8月之前上传的文件使用GPTQ-for-LLaMa制作。
分支 | 比特数 | 分组大小 | 激活顺序 | 阻尼百分比 | GPTQ数据集 | 序列长度 | 大小 | ExLlama兼容性 | 描述 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | 否 | 0.01 | wikitext | 4096 | 7.26 GB | 是 | 4位,无激活顺序,分组大小128g。 |
gptq-4bit-32g-actorder_True | 4 | 32 | 是 | 0.01 | wikitext | 4096 | 8.00 GB | 是 | 4位,有激活顺序,分组大小32g。推理质量最高,但VRAM使用量最大。 |
gptq-4bit-64g-actorder_True | 4 | 64 | 是 | 0.01 | wikitext | 4096 | 7.51 GB | 是 | 4位,有激活顺序,分组大小64g。VRAM使用量比32g小,但精度略低。 |
gptq-4bit-128g-actorder_True | 4 | 128 | 是 | 0.01 | wikitext | 4096 | 7.26 GB | 是 | 4位,有激活顺序,分组大小128g。VRAM使用量比64g更小,但精度略低。 |
gptq-8bit-128g-actorder_True | 8 | 128 | 是 | 0.01 | wikitext | 4096 | 13.65 GB | 否 | 8位,分组大小128g以提高推理质量,有激活顺序以提高精度。 |
gptq-8bit-64g-actorder_True | 8 | 64 | 是 | 0.01 | wikitext | 4096 | 13.95 GB | 否 | 8位,分组大小64g和激活顺序以提高推理质量。AutoGPTQ CUDA速度较慢。 |
gptq-8bit-128g-actorder_False | 8 | 128 | 否 | 0.01 | wikitext | 4096 | 13.65 GB | 否 | 8位,分组大小128g以提高推理质量,无激活顺序以提高AutoGPTQ速度。 |
gptq-8bit--1g-actorder_True | 8 | 无 | 是 | 0.01 | wikitext | 4096 | 13.36 GB | 否 | 8位,有激活顺序。无分组大小,以降低VRAM需求。 |
GPTQ参数解释
- 比特数:量化模型的比特大小。
- 分组大小:GPTQ分组大小。数值越高,VRAM使用量越少,但量化精度越低。“无”是最低可能值。
- 激活顺序:真或假。也称为
desc_act
。真会导致更好的量化精度。一些GPTQ客户端在使用激活顺序和分组大小的模型时遇到过问题,但现在一般已解决。 - 阻尼百分比:影响量化样本处理的GPTQ参数。默认值为0.01,但0.1会导致略高的精度。
- GPTQ数据集:用于量化的数据集。使用更适合模型训练的数据集可以提高量化精度。请注意,GPTQ数据集与用于训练模型的数据集不同,请参考原始模型仓库了解训练数据集的详细信息。
- 序列长度:用于量化的数据集序列长度。理想情况下,这与模型序列长度相同。对于一些非常长序列的模型(16K以上),可能需要使用较低的序列长度。请注意,较低的序列长度不会限制量化模型的序列长度,它只影响较长推理序列的量化精度。
- ExLlama兼容性:该文件是否可以使用ExLlama加载,目前ExLlama仅支持4位的Llama模型。
🔧 技术细节
训练因素
使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、注释和评估也在第三方云计算上进行。
碳足迹
预训练在A100 - 80GB类型的硬件上累计使用了330万个GPU小时的计算资源(TDP为350 - 400W)。估计总排放量为539 tCO2eq,其中100%由Meta的可持续发展计划抵消。
模型 | 时间(GPU小时) | 功耗(W) | 碳排放(tCO₂eq) |
---|---|---|---|
Llama 2 7B | 184320 | 400 | 31.22 |
Llama 2 13B | 368640 | 400 | 62.44 |
Llama 2 70B | 1720320 | 400 | 291.42 |
总计 | 3311616 | 539.00 |
训练数据
Llama 2在来自公开可用来源的2万亿个标记的数据上进行了预训练。微调数据包括公开可用的指令数据集,以及超过一百万个新的人工注释示例。预训练和微调数据集均不包括Meta用户数据。预训练数据截止到2022年9月,但一些微调数据更新至2023年7月。
评估结果
模型 | 大小 | 代码 | 常识推理 | 世界知识 | 阅读理解 | 数学 | MMLU | BBH | AGI评估 |
---|---|---|---|---|---|---|---|---|---|
Llama 1 | 7B | 14.1 | 60.8 | 46.2 | 58.5 | 6.95 | 35.1 | 30.3 | 23.9 |
Llama 1 | 13B | 18.9 | 66.1 | 52.6 | 62.3 | 10.9 | 46.9 | 37.0 | 33.9 |
Llama 1 | 33B | 26.0 | 70.0 | 58.4 | 67.6 | 21.4 | 57.8 | 39.8 | 41.7 |
Llama 1 | 65B | 30.7 | 70.7 | 60.5 | 68.6 | 30.8 | 63.4 | 43.5 | 47.6 |
Llama 2 | 7B | 16.8 | 63.9 | 48.9 | 61.3 | 14.6 | 45.3 | 32.6 | 29.3 |
Llama 2 | 13B | 24.5 | 66.9 | 55.4 | 65.8 | 28.7 | 54.8 | 39.4 | 39.1 |
Llama 2 | 70B | 37.5 | 71.9 | 63.6 | 69.4 | 35.2 | 68.9 | 51.2 | 54.2 |
真实问答 | 毒性生成 | ||
---|---|---|---|
Llama 1 | 7B | 27.42 | 23.00 |
Llama 1 | 13B | 41.74 | 23.08 |
Llama 1 | 33B | 44.19 | 22.57 |
Llama 1 | 65B | 48.71 | 21.77 |
Llama 2 | 7B | 33.29 | 21.25 |
Llama 2 | 13B | 41.86 | 26.10 |
Llama 2 | 70B | 50.18 | 24.60 |
真实问答 | 毒性生成 | ||
---|---|---|---|
Llama - 2 - 聊天 | 7B | 57.04 | 0.00 |
Llama - 2 - 聊天 | 13B | 62.18 | 0.00 |
Llama - 2 - 聊天 | 70B | 64.14 | 0.01 |
📄 许可证
使用此模型受Meta许可证的约束。若要下载模型权重和分词器,请访问 网站 并接受许可协议后再申请访问。
Discord
如需进一步支持,或讨论这些模型和人工智能相关话题,欢迎加入: TheBloke AI的Discord服务器
感谢与贡献方式
感谢 chirper.ai 团队!感谢 [gpus.llm - utils.org](llm - utils) 的Clay!
很多人询问是否可以进行贡献。我喜欢提供模型并帮助他人,也希望能花更多时间做这些事,以及开展新的项目,如微调/训练。
如果您有能力且愿意贡献,我将不胜感激,这将帮助我提供更多模型,并开展新的人工智能项目。捐赠者将在所有AI/LLM/模型问题和请求上获得优先支持,访问私人Discord房间,以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko - Fi: https://ko - fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon特别提及:Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann - Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeffrey Morgan, Spiking Neurons AB, Edmond Seymore, Alexandros Triantafyllidis, Lone Striker, Cap'n Zoog, Nikolai Manek, danny, ya boyyy, Derek Yates, usrbinkat, Mandus, TL, Nathan LeClaire, subjectnull, Imad Khwaja, webtim, Raven Klaugh, Asp the Wyvern, Gabriel Puliatti, Caitlyn Gatomon, Joseph William Delisle, Jonathan Leane, Luke Pendergrass, SuperWojo, Sebastain Graf, Will Dee, Fred von Graf, Andrey, Dan Guido, Daniel P. Andersen, Nitin Borwankar, Elle, Vitor Caleffi, biorpg, jjj, NimbleBox.ai, Pieter, Matthew Berman, terasurfer, Michael Davis, Alex, Stanislav Ovsiannikov
感谢所有慷慨的赞助者和捐赠者!再次感谢a16z的慷慨资助。
原始模型卡片:Meta的Llama 2 13B - 聊天
Llama 2简介
Llama 2是一系列预训练和微调的生成式文本模型,参数规模从70亿到700亿不等。这是13B微调模型的仓库,针对对话用例进行了优化,并转换为Hugging Face Transformers格式。其他模型的链接可在底部索引中找到。
模型详情
- 模型开发者:Meta
- 变体:Llama 2有7B、13B和70B等不同参数规模,以及预训练和微调版本。
- 输入:模型仅接受文本输入。
- 输出:模型仅生成文本输出。
- 模型架构:Llama 2是一种自回归语言模型,使用优化的Transformer架构。微调版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来符合人类对有用性和安全性的偏好。
- 训练数据:新的公开可用在线数据混合。
- 参数数量:7B、13B、70B。
- 内容长度:4k。
- 分组查询注意力(GQA):70B模型使用GQA以提高推理可扩展性。
- 标记数量:预训练数据为2.0T。
- 学习率:7B和13B模型为3.0 x 10⁻⁴,70B模型为1.5 x 10⁻⁴。
- 模型日期:Llama 2于2023年1月至7月期间进行训练。
- 状态:这是一个在离线数据集上训练的静态模型。随着我们根据社区反馈改进模型安全性,未来将发布微调模型的新版本。
- 许可证:可在 此处 获取自定义商业许可证。
- 研究论文:"Llama - 2: Open Foundation and Fine - tuned Chat Models"
预期用途
- 预期用例:Llama 2旨在用于英语的商业和研究用途。微调模型适用于类似助手的聊天,而预训练模型可用于各种自然语言生成任务。为获得聊天版本的预期功能和性能,需要遵循特定的格式,包括
INST
和<<SYS>>
标签、BOS
和EOS
标记,以及它们之间的空格和换行符(建议对输入调用strip()
以避免双空格)。详细信息请参阅github上的参考代码:chat_completion
。 - 超出范围的用途:以任何违反适用法律法规(包括贸易合规法律)的方式使用;使用英语以外的语言;以Llama 2的可接受使用政策和许可协议禁止的任何其他方式使用。
硬件和软件
- 训练因素:使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、注释和评估也在第三方云计算上进行。
- 碳足迹:预训练在A100 - 80GB类型的硬件上累计使用了330万个GPU小时的计算资源(TDP为350 - 400W)。估计总排放量为539 tCO₂eq,其中100%由Meta的可持续发展计划抵消。
训练数据
- 概述:Llama 2在来自公开可用来源的2万亿个标记的数据上进行了预训练。微调数据包括公开可用的指令数据集,以及超过一百万个新的人工注释示例。预训练和微调数据集均不包括Meta用户数据。
- 数据新鲜度:预训练数据截止到2022年9月,但一些微调数据更新至2023年7月。
评估结果
在标准学术基准测试中,Llama 2在多个指标上表现优于Llama 1。具体评估结果见上文表格。
伦理考虑和局限性
Llama 2是一项新技术,使用时存在风险。到目前为止的测试仅在英语中进行,无法涵盖所有场景。因此,与所有大语言模型一样,Llama 2的潜在输出无法提前预测,在某些情况下,模型可能会对用户提示产生不准确、有偏见或其他令人反感的响应。因此,在部署Llama 2的任何应用程序之前,开发者应针对特定应用进行安全测试和调优。请参阅 负责任使用指南。
问题报告
请通过以下方式报告模型的任何软件“漏洞”或其他问题:
- 报告模型问题:github.com/facebookresearch/llama
- 报告模型生成的有问题内容:developers.facebook.com/llama_output_feedback
- 报告漏洞和安全问题:facebook.com/whitehat/info
Llama模型索引
模型 | Llama2 | Llama2 - hf | Llama2 - 聊天 | Llama2 - 聊天 - hf |
---|---|---|---|---|
7B | [链接](https://huggingface.co/llamaste/Llama - 2 - 7b) | [链接](https://huggingface.co/llamaste/Llama - 2 - 7b - hf) | [链接](https://huggingface.co/llamaste/Llama - 2 - 7b - chat) | [链接](https://huggingface.co/llamaste/Llama - 2 - 7b - chat - hf) |
13B | [链接](https://huggingface.co/llamaste/Llama - 2 - 13b) | [链接](https://huggingface.co/llamaste/Llama - 2 - 13b - hf) | [链接](https://huggingface.co/llamaste/Llama - 2 - 13b - chat) | [链接](https://huggingface.co/llamaste/Llama - 2 - 13b - hf) |
70B | [链接](https://huggingface.co/llamaste/Llama - 2 - 70b) | [链接](https://huggingface.co/llamaste/Llama - 2 - 70b - hf) | [链接](https://huggingface.co/llamaste/Llama - 2 - 70b - chat) | [链接](https://huggingface.co/llamaste/Llama - 2 - 70b - hf) |



