🚀 UNA-ThePitbull 21.4B v2
UNA-ThePitbull 21.4B v2是基于saltlux/luxia-21.4b-alignment-v1.0的21.4B模型,性能接近70B模型,是行业内出色的大语言模型。它未经过刻意调优以获取高分却无实际用途,而是将情商与智商完美融合,是强大且智能的对话模型。

量化版本可在 bartowski/UNA-ThePitbull-21.4B-v2-GGUF 获取。
✨ 主要特性
- 基于saltlux/luxia-21.4b-alignment-v1.0构建,仅21.4B却有接近70B模型的性能。
- 未被恶意调优,兼具高情商和高智商,对话能力强。
- 提供量化版本,方便使用。
📚 详细文档
版本差异(V1 vs V2)
在V2版本中,我们采用了不同的UNA策略,部分覆盖了MLP和注意力层。同时,在V1的基础上进行了进一步的SFT和DPO训练,部分训练成果也将很快发布。
具体更改
- 使用
Replete-AI/code_bagel_hermes-2.5
数据集对V1进行SFT训练,学习率从1.0e - 4降至5.0e - 5,训练1个epoch。
- 进行DPO训练,学习率从1.0e - 4降至最低5.0e - 5,训练1个epoch,使用的数据集为:
mlabonne/orpo-dpo-mix-40k
jondurbin/py-dpo-v0.1
评估结果
详细结果可查看 此处
指标 |
值 |
平均值 |
77.82 |
AI2推理挑战(25次少样本) |
77.73 |
HellaSwag(10次少样本) |
91.79 |
MMLU(5次少样本) |
68.25 |
TruthfulQA(0次少样本) |
78.24 |
Winogrande(5次少样本) |
87.37 |
GSM8k(5次少样本) |
63.53 |
该模型只能与其非UNA基础模型(原始的luxia-21.4b和ThePitbull-v1)进行比较。
UNA v2(VLLM)评估
vllm (pretrained=/data/tools/mergekit/una-thepitbull-v5,dtype=bfloat16,gpu_memory_utilization=0.8,max_model_len=2048,data_parallel_size=2,tensor_parallel_size=4), gen_kwargs: (None), limit: None, num_fewshot: None, batch_size: 8
| 任务 | 版本 | 过滤条件 | 少样本次数 | 指标 | 值 | ± | 标准误差 |
| -------------- | ----: | -------------- | ----: | ----------- | ----: | --- | ----: |
| gsm8k | 3 | 严格匹配 | 5 | 精确匹配 | 0.7695 | ± | 0.0116 | + |
| | | 灵活提取 | 5 | 精确匹配 | 0.7695 | ± | 0.0116 | + |
| hellaswag | 1 | 无 | 10 | 准确率 | 0.8110 | ± | 0.0039 | |
| | | 无 | 10 | 归一化准确率 | 0.9169 | ± | 0.0028 | + |
| winogrande | 1 | 无 | 5 | 准确率 | 0.8777 | ± | 0.0092 | + |
| mmlu | N/A | 无 | 0 | 准确率 | 0.6427 | ± | 0.0038 | - |
| arc_challenge | 1 | 无 | 25 | 准确率 | 0.7713 | ± | 0.0123 | |
| | | 无 | 25 | 归一化准确率 | 0.7875 | ± | 0.0120 | + |
| truthfulqa_mc2 | 2 | 无 | 0 | 准确率 | 0.7824 | ± | 0.0135 | - |
| mathqa | 1 | 无 | 0 | 准确率 | 0.4037 | ± | 0.009 | |
| | | 无 | 0 | 归一化准确率 | 0.4034 | ± | 0.009 | + |
| pubmedqa | 1 | 无 | 0 | 准确率 | 0.7260 | ± | 0.020 | + |
| boolq | 2 | 无 | 0 | 准确率 | 0.8602 | ± | 0.0061 | + |
UNA v1(VLLM)评估
| 任务 | 版本 | 过滤条件 | 少样本次数 | 指标 | 值 | ± | 标准误差 |
| -------------- | ----: | -------------- | ----: | ----------- | ----: | --- | ----: |
| gsm8k | 3 | 严格匹配 | 5 | 精确匹配 | 0.7566 | ± | 0.0118 | |
| | | 灵活提取 | 5 | 精确匹配 | 0.7582 | ± | 0.0118 | |
| hellaswag | 1 | 无 | 10 | 准确率 | 0.8168 | ± | 0.0039 | |
| | | 无 | 10 | 归一化准确率 | 0.9188 | ± | 0.0027 | |
| winogrande | 1 | 无 | 5 | 准确率 | 0.8635 | ± | 0.0097 | |
| mmlu | N/A | 无 | 0 | 准确率 | 0.6444 | ± | 0.0038 | |
| arc_challenge | 1 | 无 | 25 | 准确率 | 0.7747 | ± | 0.0122 | |
| | | 无 | 25 | 归一化准确率 | 0.7850 | ± | 0.0120 | |
| truthfulqa_mc2 | 2 | 无 | 0 | 准确率 | 0.7902 | ± | 0.0134 | |
| mathqa | 1 | 无 | 0 | 准确率 | 0.4030 | ± | 0.009 | |
| | | 无 | 0 | 归一化准确率 | 0.4034 | ± | 0.009 | |
| pubmedqa | 1 | 无 | 0 | 准确率 | 0.6860 | ± | 0.0208 | |
| boolq | 2 | 无 | 0 | 准确率 | 0.8401 | ± | 0.0064 | |
原始(VLLM)评估
| 任务 | 版本 | 过滤条件 | 少样本次数 | 指标 | 值 | ± | 标准误差 |
| -------------- | ----: | -------------- | ----: | ----------- | ----: | --- | ----: |
| gsm8k | 3 | 严格匹配 | 5 | 精确匹配 | 0.7528 | ± | 0.0119 | |
| | | 灵活提取 | 5 | 精确匹配 | 0.7521 | ± | 0.0119 | |
| hellaswag | 1 | 无 | 10 | 准确率 | 0.8117 | ± | 0.0039 | |
| | | 无 | 10 | 归一化准确率 | 0.9167 | ± | 0.0028 | |
| winogrande | 1 | 无 | 5 | 准确率 | 0.8682 | ± | 0.0095 | |
| mmlu | N/A | 无 | 0 | 准确率 | 0.6448 | ± | 0.0038 | |
| arc_challenge | 1 | 无 | 25 | 准确率 | 0.7688 | ± | 0.0123 | |
| | | 无 | 25 | 归一化准确率 | 0.7730 | ± | 0.0122 | |
| truthfulqa_mc2 | 2 | 无 | 0 | 准确率 | 0.7895 | ± | 0.0133 | |
| mathqa | 1 | 无 | 0 | 准确率 | 0.4000 | ± | 0.009 | |
| | | 无 | 0 | 归一化准确率 | 0.4003 | ± | 0.009 | |
| pubmedqa | 1 | 无 | 0 | 准确率 | 0.6680 | ± | 0.0211 | |
| boolq | 2 | 无 | 0 | 准确率 | 0.8346 | ± | 0.0065 | |
详细结果可查看 此处
指标 |
值 |
平均值 |
22.60 |
IFEval(0次少样本) |
37.90 |
BBH(3次少样本) |
46.79 |
MATH Lvl 5(4次少样本) |
9.59 |
GPQA(0次少样本) |
6.94 |
MuSR(0次少样本) |
6.42 |
MMLU - PRO(5次少样本) |
27.95 |
引用
如果你使用UNA模型,请记得引用:
@misc{unathepitbull21b,
title={ThePitbull: Uniform Neural Alignment},
author={Xavier Murias},
year={2024},
publisher = {Juanako.AI},
journal = {HuggingFace repository},
howpublished = {\url{https://huggingface.co/fblgit/UNA-ThePitbull-21.4-v1}},
}
📄 许可证
本项目采用AFL - 3.0许可证。
引用贡献者
- mlabonne
- jondurbin & Replete - AI
- bartowski
- saltlux