🚀 UNA-ThePitbull 21.4B v2
UNA-ThePitbull 21.4B v2是基於saltlux/luxia-21.4b-alignment-v1.0的21.4B模型,性能接近70B模型,是行業內出色的大語言模型。它未經過刻意調優以獲取高分卻無實際用途,而是將情商與智商完美融合,是強大且智能的對話模型。

量化版本可在 bartowski/UNA-ThePitbull-21.4B-v2-GGUF 獲取。
✨ 主要特性
- 基於saltlux/luxia-21.4b-alignment-v1.0構建,僅21.4B卻有接近70B模型的性能。
- 未被惡意調優,兼具高情商和高智商,對話能力強。
- 提供量化版本,方便使用。
📚 詳細文檔
版本差異(V1 vs V2)
在V2版本中,我們採用了不同的UNA策略,部分覆蓋了MLP和注意力層。同時,在V1的基礎上進行了進一步的SFT和DPO訓練,部分訓練成果也將很快發佈。
具體更改
- 使用
Replete-AI/code_bagel_hermes-2.5
數據集對V1進行SFT訓練,學習率從1.0e - 4降至5.0e - 5,訓練1個epoch。
- 進行DPO訓練,學習率從1.0e - 4降至最低5.0e - 5,訓練1個epoch,使用的數據集為:
mlabonne/orpo-dpo-mix-40k
jondurbin/py-dpo-v0.1
評估結果
詳細結果可查看 此處
指標 |
值 |
平均值 |
77.82 |
AI2推理挑戰(25次少樣本) |
77.73 |
HellaSwag(10次少樣本) |
91.79 |
MMLU(5次少樣本) |
68.25 |
TruthfulQA(0次少樣本) |
78.24 |
Winogrande(5次少樣本) |
87.37 |
GSM8k(5次少樣本) |
63.53 |
該模型只能與其非UNA基礎模型(原始的luxia-21.4b和ThePitbull-v1)進行比較。
UNA v2(VLLM)評估
vllm (pretrained=/data/tools/mergekit/una-thepitbull-v5,dtype=bfloat16,gpu_memory_utilization=0.8,max_model_len=2048,data_parallel_size=2,tensor_parallel_size=4), gen_kwargs: (None), limit: None, num_fewshot: None, batch_size: 8
| 任務 | 版本 | 過濾條件 | 少樣本次數 | 指標 | 值 | ± | 標準誤差 |
| -------------- | ----: | -------------- | ----: | ----------- | ----: | --- | ----: |
| gsm8k | 3 | 嚴格匹配 | 5 | 精確匹配 | 0.7695 | ± | 0.0116 | + |
| | | 靈活提取 | 5 | 精確匹配 | 0.7695 | ± | 0.0116 | + |
| hellaswag | 1 | 無 | 10 | 準確率 | 0.8110 | ± | 0.0039 | |
| | | 無 | 10 | 歸一化準確率 | 0.9169 | ± | 0.0028 | + |
| winogrande | 1 | 無 | 5 | 準確率 | 0.8777 | ± | 0.0092 | + |
| mmlu | N/A | 無 | 0 | 準確率 | 0.6427 | ± | 0.0038 | - |
| arc_challenge | 1 | 無 | 25 | 準確率 | 0.7713 | ± | 0.0123 | |
| | | 無 | 25 | 歸一化準確率 | 0.7875 | ± | 0.0120 | + |
| truthfulqa_mc2 | 2 | 無 | 0 | 準確率 | 0.7824 | ± | 0.0135 | - |
| mathqa | 1 | 無 | 0 | 準確率 | 0.4037 | ± | 0.009 | |
| | | 無 | 0 | 歸一化準確率 | 0.4034 | ± | 0.009 | + |
| pubmedqa | 1 | 無 | 0 | 準確率 | 0.7260 | ± | 0.020 | + |
| boolq | 2 | 無 | 0 | 準確率 | 0.8602 | ± | 0.0061 | + |
UNA v1(VLLM)評估
| 任務 | 版本 | 過濾條件 | 少樣本次數 | 指標 | 值 | ± | 標準誤差 |
| -------------- | ----: | -------------- | ----: | ----------- | ----: | --- | ----: |
| gsm8k | 3 | 嚴格匹配 | 5 | 精確匹配 | 0.7566 | ± | 0.0118 | |
| | | 靈活提取 | 5 | 精確匹配 | 0.7582 | ± | 0.0118 | |
| hellaswag | 1 | 無 | 10 | 準確率 | 0.8168 | ± | 0.0039 | |
| | | 無 | 10 | 歸一化準確率 | 0.9188 | ± | 0.0027 | |
| winogrande | 1 | 無 | 5 | 準確率 | 0.8635 | ± | 0.0097 | |
| mmlu | N/A | 無 | 0 | 準確率 | 0.6444 | ± | 0.0038 | |
| arc_challenge | 1 | 無 | 25 | 準確率 | 0.7747 | ± | 0.0122 | |
| | | 無 | 25 | 歸一化準確率 | 0.7850 | ± | 0.0120 | |
| truthfulqa_mc2 | 2 | 無 | 0 | 準確率 | 0.7902 | ± | 0.0134 | |
| mathqa | 1 | 無 | 0 | 準確率 | 0.4030 | ± | 0.009 | |
| | | 無 | 0 | 歸一化準確率 | 0.4034 | ± | 0.009 | |
| pubmedqa | 1 | 無 | 0 | 準確率 | 0.6860 | ± | 0.0208 | |
| boolq | 2 | 無 | 0 | 準確率 | 0.8401 | ± | 0.0064 | |
原始(VLLM)評估
| 任務 | 版本 | 過濾條件 | 少樣本次數 | 指標 | 值 | ± | 標準誤差 |
| -------------- | ----: | -------------- | ----: | ----------- | ----: | --- | ----: |
| gsm8k | 3 | 嚴格匹配 | 5 | 精確匹配 | 0.7528 | ± | 0.0119 | |
| | | 靈活提取 | 5 | 精確匹配 | 0.7521 | ± | 0.0119 | |
| hellaswag | 1 | 無 | 10 | 準確率 | 0.8117 | ± | 0.0039 | |
| | | 無 | 10 | 歸一化準確率 | 0.9167 | ± | 0.0028 | |
| winogrande | 1 | 無 | 5 | 準確率 | 0.8682 | ± | 0.0095 | |
| mmlu | N/A | 無 | 0 | 準確率 | 0.6448 | ± | 0.0038 | |
| arc_challenge | 1 | 無 | 25 | 準確率 | 0.7688 | ± | 0.0123 | |
| | | 無 | 25 | 歸一化準確率 | 0.7730 | ± | 0.0122 | |
| truthfulqa_mc2 | 2 | 無 | 0 | 準確率 | 0.7895 | ± | 0.0133 | |
| mathqa | 1 | 無 | 0 | 準確率 | 0.4000 | ± | 0.009 | |
| | | 無 | 0 | 歸一化準確率 | 0.4003 | ± | 0.009 | |
| pubmedqa | 1 | 無 | 0 | 準確率 | 0.6680 | ± | 0.0211 | |
| boolq | 2 | 無 | 0 | 準確率 | 0.8346 | ± | 0.0065 | |
詳細結果可查看 此處
指標 |
值 |
平均值 |
22.60 |
IFEval(0次少樣本) |
37.90 |
BBH(3次少樣本) |
46.79 |
MATH Lvl 5(4次少樣本) |
9.59 |
GPQA(0次少樣本) |
6.94 |
MuSR(0次少樣本) |
6.42 |
MMLU - PRO(5次少樣本) |
27.95 |
引用
如果你使用UNA模型,請記得引用:
@misc{unathepitbull21b,
title={ThePitbull: Uniform Neural Alignment},
author={Xavier Murias},
year={2024},
publisher = {Juanako.AI},
journal = {HuggingFace repository},
howpublished = {\url{https://huggingface.co/fblgit/UNA-ThePitbull-21.4-v1}},
}
📄 許可證
本項目採用AFL - 3.0許可證。
引用貢獻者
- mlabonne
- jondurbin & Replete - AI
- bartowski
- saltlux