🚀 因果语言模型 7B - 与 Meta LLaMA 2 完全兼容
因果语言模型 7B 可使用无需远程/外部代码的 transformers 库加载,且模型量化与 GGUF、GPTQ、AWQ 完全兼容。该模型在多个评估指标上表现出色,优于众多同量级模型。
🚀 快速开始
使用无需远程/外部代码的 transformers
库加载模型,可通过 AutoModelForCausalLM
和 AutoTokenizer
(或者手动指定 LlamaForCausalLM
加载语言模型,GPT2Tokenizer
加载分词器)来完成,并且模型量化与 GGUF(llama.cpp
)、GPTQ、AWQ 完全兼容。
✨ 主要特性
- 模型兼容性:与 Meta LLaMA 2 完全兼容,使用与 LLaMA2 相同的模型结构和注意力计算方法,对旋转位置编码(RoPE)没有进行额外的缩放。
- 多语言支持:支持英语和中文等多种语言。
- 量化兼容性:模型量化与 GGUF(
llama.cpp
)、GPTQ、AWQ 完全兼容。
- 数据处理:手动筛选 13 亿标记的 SFT 数据集,使用合成数据训练,平衡效率与质量。
- 多模态潜力:在 LLaVA1.5 提示格式微调,可快速实现多模态能力。
📚 详细文档
最近更新
DPO-α 版本 在 MT-Bench 中表现超过 Zephyr-β。
llama.cpp GGUF 模型
GPT2Tokenizer
支持由 Kerfuffle 修复于 https://github.com/ggerganov/llama.cpp/pull/3743,新模型稍后上传。
感谢 TheBloke 制作 GGUF 版本量化模型: https://huggingface.co/TheBloke/CausalLM-7B-GGUF
注意事项
⚠️ 重要提示
非官方 GPTQ 和 AWQ 模型可能存在问题,因为它们使用 Wikitext 进行校准,而该模型已经在合成的 Wikipedia 对话数据集上经过了大量的训练。不建议使用任何形式的量化,而是使用较小尺寸的模型,因为 7B 和 14B 版本具有较高的一致性。 但是,如果您确实使用模型量化,请使用 GGUF。
训练详情
该模型基于 Qwen 的权重(并使用了 LLaMA2 权重用于计算一些权重初始化),您根据情况可能还需要遵守这两个模型的商业使用限制。
我们手动筛选了一个包含 13 亿个标记的 SFT 数据集进行训练,利用了 Hugging Face 的开源数据集。对于大多数句子,我们进行了手动或合成改写,并使用更大的语言模型生成了其他语言版本。此外,我们还使用了精心挑选的来自维基百科的条目、来自 Fandom 的精选条目以及来自萌娘百科的过滤条目进行增强文本训练。为了在效率和质量之间取得平衡,训练所使用的 100% 数据都是合成数据,没有直接使用来自互联网或公开可用数据集的原始文本进行微调。
模型使用注意
7B 版本的模型是 14B 模型的精简版本,专门设计用于推测抽样。因此,在直接使用模型时,需要谨慎行事,因为它可能会产生幻觉或不可靠的输出。
⚠️ 重要提示
请注意,模型是在未经过滤的互联网数据上进行训练的。由于我们无法审核所有数据,可能会出现大量不良内容、色情、暴力和冒犯性语言,我们无法删除这些内容。因此,您仍然需要对模型的安全性进行自己的检查,并对输出中的关键词进行过滤。由于计算资源的限制,我们目前无法为模型的伦理和安全实施 RLHF,也无法对拒绝回答某些问题的 SFT 样本进行训练以进行限制性微调。
多模态能力
模型在 LLaVA1.5 中引入的提示格式上进行了一些微调,与图像注意力计算无关。因此,将 ViT 投影模块与冻结的 LM 对齐,并根据视觉指令实施可快速实现有效的多模态能力。
提示格式
chatml
⚠️ 重要提示
系统提示不能为空!
评估指标
MMLU
类别 |
准确率 |
STEM |
56.83 |
人文学科 |
58.79 |
其他 |
70.04 |
社会学 |
72.41 |
平均 |
63.82 |
该平均准确率优于/平于最好的 Mistral - 7B 聊天格式的微调,ChatGLM3 - 6B 和其余的 33B 及以下模型。
CEval(验证集)
类别 |
准确率 |
STEM |
61.67 |
社会科学 |
81.94 |
人文学科 |
77.19 |
其他 |
68.35 |
困难 |
48.03 |
平均 |
70.27 |
该平均准确率优于当前所有 7B 模型,包括 ChatGLM3 - 6B。
GSM8K
零样本准确率 0.5921152388172858 ,优于 WizardMath - 7B 和 Qwen - 7B。
DPO 版本的 MT - Behch
模型 |
MT - Bench |
GPT - 4 |
8.99 |
GPT - 3.5 - Turbo |
7.94 |
Zephyr - 7b - β (过拟合) |
7.34 |
Zephyr - 7b - α |
6.88 |
[CausalLM/14B - DPO - α](https://huggingface.co/CausalLM/14B - DPO - alpha) |
7.618868 |
[CausalLM/7B - DPO - α](https://huggingface.co/CausalLM/7B - DPO - alpha) |
7.038125 |
📄 许可证
本项目采用 WTFPL 许可证。
🔍 数据集
本模型训练使用了以下开源数据集:
- JosephusCheung/GuanacoDataset
- Open - Orca/OpenOrca
- stingning/ultrachat
- meta - math/MetaMathQA
- liuhaotian/LLaVA - Instruct - 150K
- jondurbin/airoboros - 3.1
- WizardLM/WizardLM_evol_instruct_V2_196k
- RyokoAI/ShareGPT52K
- RyokoAI/Fandom23K
- milashkaarshif/MoeGirlPedia_wikitext_raw_archive
- wikipedia
- wiki_lingua
- fnlp/moss - 003 - sft - data
- garage - bAInd/Open - Platypus
- LDJnr/Puffin
- openbmb/llava_zh
- BAAI/COIG
- TigerResearch/tigerbot - zhihu - zh - 10k
- liwu/MNBVC
- teknium/openhermes