🚀 CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity
本项目是一个文本生成模型,通过合并多个模型并采用新的实验性实现“dare ties”得到。它在多个文本生成任务的评估中表现出色,具有较高的准确性。
🚀 快速开始
该模型可能已被 https://huggingface.co/brucethemoose/Yi-34B-200K-DARE-merge-v5 替代。以下是旧模型的描述:
✨ 主要特性
- 多模型融合:将 Dolphin-2.2-yi-34b-200k、Nous-Capybara-34B、Tess-M-v1.4、Airoboros-3_1-yi-34b-200k、PlatYi-34B-200K-Q 和 Una-xaberius-34b-v1beta 等模型通过 mergekit 以新的实验性“dare ties”实现进行合并。
- 高密度合并:采用高于推荐密度的合并方式,在困惑度测试和长上下文提示测试中表现较好,在 Hugging Face 排行榜上排名更高。
- 多种提示模板支持:可能识别来自 Dolphin+Xaberius 的 ChatML 和来自 Airoboros 的 Llama-chat 提示模板。
📦 安装指南
文档未提及具体安装步骤,故跳过此章节。
💻 使用示例
基础用法
SYSTEM: {system_message}
USER: {prompt}
ASSISTANT:
此为 Orca-Vicuna 提示模板,该模型可能识别来自 Dolphin+Xaberius 的 ChatML 和来自 Airoboros 的 Llama-chat 提示模板。有时模型会像 Capybara 一样将停止标记“拼写”为 </s>
,因此可能需要添加 </s>
作为额外的停止条件。
📚 详细文档
运行说明
作为 Yi 模型,尝试禁用 BOS 标记,或使用 0.05 - 0.13 的 MinP、较低的温度、轻微的重复惩罚,且不使用其他采样器。默认情况下,Yi 模型运行时“热度”较高。
24GB GPU 可以使用 exllamav2 在 45K - 75K 上下文 下运行 Yi-34B-200K 模型。更多详细信息可参考 此帖子。
建议使用在与所需任务相似的数据上进行分析的 exl2 量化方法。在低 bpw 时,模型对量化数据特别敏感!已在 vicuuna chat + 小说写作上发布了自己的量化版本:4bpw 3.1bpw。
要在 transformers 和 vllm 等全上下文后端中加载该模型,必须 将 config.json
中的 max_position_embeddings
更改为低于 200,000 的值,否则会出现内存不足(OOM)错误!
测试说明
- 密度测试:通过困惑度测试和长上下文提示对各种密度进行了测试。与《Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch》论文的研究结果相反,相对较高的密度似乎表现更好。
- 合并密度:此特定版本的合并密度超过了“推荐”的最大密度 0.5。这似乎导致了更好的困惑度,并且在 Hugging Face 排行榜上的排名更高,但不确定这是否意味着输出效果更好。
- 权重优化:权重总和为 1 似乎是最优的。
- 合并方法优势:“Dare Ties”合并方法似乎比常规的 ties 合并、任务算术合并或 slerp 合并产生更好、更低困惑度的结果。
- Xaberuis 合并处理:Xaberuis 不是 200K 模型,因此以非常低的密度进行合并,以在保留 Yi 200K 长上下文性能的同时继承 Xaberuis 的部分性能。
- 模型选择原因:选择不包括其他微调模型,因为它们不是在 200K 基础上训练的。如果有其他 200K 微调模型出现,请告知。
🔧 技术细节
本模型通过 mergekit 以新的实验性“dare ties”实现进行合并,合并配置如下:
models:
- model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
# no parameters necessary for base model
- model: /home/alpha/Storage/Models/Raw/migtissera_Tess-34B-v1.4
parameters:
weight: 0.19
density: 0.6
- model: /home/alpha//Storage/Models/Raw/bhenrym14_airoboros-3_1-yi-34b-200k
parameters:
weight: 0.14
density: 0.5
- model: /home/alpha/Storage/Models/Raw/Nous-Capybara-34B
parameters:
weight: 0.19
density: 0.6
- model: /home/alpha/Storage/Models/Raw/kyujinpy_PlatYi-34B-200K-Q
parameters:
weight: 0.14
density: 0.5
- model: /home/alpha/FastModels/ehartford_dolphin-2.2-yi-34b-200k
parameters:
weight: 0.19
density: 0.6
- model: /home/alpha/FastModels/fblgit_una-xaberius-34b-v1beta
parameters:
weight: 0.15
density: 0.08
merge_method: dare_ties
base_model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
parameters:
int8_mask: true
dtype: bfloat16
📄 许可证
本模型使用的许可证为 yi-license。
模型评估结果
Open LLM Leaderboard 评估结果
详细结果可查看 此处
指标 |
值 |
平均值 |
72.15 |
AI2 推理挑战 (25 次少样本学习) |
67.41 |
HellaSwag (10 次少样本学习) |
85.77 |
MMLU (5 次少样本学习) |
77.44 |
TruthfulQA (0 次少样本学习) |
57.84 |
Winogrande (5 次少样本学习) |
83.11 |
GSM8k (5 次少样本学习) |
61.33 |
致谢