🚀 MERGE2
MERGE2是使用mergekit创建的预训练语言模型的融合模型,本项目持续进行专业模型融合实验,为最终融合提供更精细的控制。
🚀 快速开始
该模型曾被称为MO - MODEL - Fused - V0.6 - LLaMa - 70B,是一系列专业模型融合实验的成果。此次实验引入了梯度控制,以便对最终融合模型进行更精细的调整。
推荐采样器设置
Temp 1.0
Min P 0.02
由于这种“超多模型融合”的特性,建议在不低于Q5量化的环境下运行此模型。
如果您喜欢我的工作,请考虑支持我,这有助于我创建更多类似的模型!
在KO - FI上支持我 <3
✨ 主要特性
- 采用DARE TIES融合方法,以[TareksLab/MO - MODEL6 - V0.1 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL6 - V0.1 - LLaMa - 70B)为基础进行融合。
- 融合了多个预训练语言模型,包括[TareksLab/MO - MODEL3 - V0.2 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL3 - V0.2 - LLaMa - 70B)等。
- 通过梯度控制,实现对最终融合模型的精细调整。
📚 详细文档
融合详情
融合方法
此模型使用DARE TIES融合方法,以[TareksLab/MO - MODEL6 - V0.1 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL6 - V0.1 - LLaMa - 70B)为基础进行融合。
融合的模型
以下模型参与了融合:
- [TareksLab/MO - MODEL3 - V0.2 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL3 - V0.2 - LLaMa - 70B)
- [TareksLab/MO - MODEL5 - V0.3 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL5 - V0.3 - LLaMa - 70B)
- [TareksLab/MO - MODEL2 - V0.2 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL2 - V0.2 - LLaMa - 70B)
- [TareksLab/MO - MODEL1 - V1 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL1 - V1 - LLaMa - 70B)
- [TareksLab/MO - MODEL4 - V0.1 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL4 - V0.1 - LLaMa - 70B)
配置
以下YAML配置用于生成此模型:
models:
- model: TareksLab/MO-MODEL6-V0.1-LLaMa-70B
parameters:
weight: [0.1, 0.1, 0.1, 0.2, 0.5]
density: 0.5
- model: TareksLab/MO-MODEL4-V0.1-LLaMa-70B
parameters:
weight: [0.1, 0.1, 0.2, 0.4, 0.2]
density: 0.5
- model: TareksLab/MO-MODEL5-V0.3-LLaMa-70B
parameters:
weight: [0.1, 0.2, 0.4, 0.2, 0.1]
density: 0.5
- model: TareksLab/MO-MODEL3-V0.2-LLaMa-70B
parameters:
weight: [0.2, 0.4, 0.2, 0.1, 0.1]
density: 0.5
- model: TareksLab/MO-MODEL2-V0.2-LLaMa-70B
parameters:
weight: [0.5, 0.2, 0.1, 0.1, 0.1]
density: 0.5
- model: TareksLab/MO-MODEL1-V1-LLaMa-70B
parameters:
weight: 0.10
density: 0.5
merge_method: dare_ties
base_model: TareksLab/MO-MODEL6-V0.1-LLaMa-70B
parameters:
normalize: false
int8_mask: true
dtype: float32
out_dtype: bfloat16
chat_template: llama3
tokenizer:
source: base
📄 许可证
该模型使用的许可证为llama3.3。
