🚀 MERGE2
MERGE2是使用mergekit創建的預訓練語言模型的融合模型,本項目持續進行專業模型融合實驗,為最終融合提供更精細的控制。
🚀 快速開始
該模型曾被稱為MO - MODEL - Fused - V0.6 - LLaMa - 70B,是一系列專業模型融合實驗的成果。此次實驗引入了梯度控制,以便對最終融合模型進行更精細的調整。
推薦採樣器設置
Temp 1.0
Min P 0.02
由於這種“超多模型融合”的特性,建議在不低於Q5量化的環境下運行此模型。
如果您喜歡我的工作,請考慮支持我,這有助於我創建更多類似的模型!
在KO - FI上支持我 <3
✨ 主要特性
- 採用DARE TIES融合方法,以[TareksLab/MO - MODEL6 - V0.1 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL6 - V0.1 - LLaMa - 70B)為基礎進行融合。
- 融合了多個預訓練語言模型,包括[TareksLab/MO - MODEL3 - V0.2 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL3 - V0.2 - LLaMa - 70B)等。
- 通過梯度控制,實現對最終融合模型的精細調整。
📚 詳細文檔
融合詳情
融合方法
此模型使用DARE TIES融合方法,以[TareksLab/MO - MODEL6 - V0.1 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL6 - V0.1 - LLaMa - 70B)為基礎進行融合。
融合的模型
以下模型參與了融合:
- [TareksLab/MO - MODEL3 - V0.2 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL3 - V0.2 - LLaMa - 70B)
- [TareksLab/MO - MODEL5 - V0.3 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL5 - V0.3 - LLaMa - 70B)
- [TareksLab/MO - MODEL2 - V0.2 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL2 - V0.2 - LLaMa - 70B)
- [TareksLab/MO - MODEL1 - V1 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL1 - V1 - LLaMa - 70B)
- [TareksLab/MO - MODEL4 - V0.1 - LLaMa - 70B](https://huggingface.co/TareksLab/MO - MODEL4 - V0.1 - LLaMa - 70B)
配置
以下YAML配置用於生成此模型:
models:
- model: TareksLab/MO-MODEL6-V0.1-LLaMa-70B
parameters:
weight: [0.1, 0.1, 0.1, 0.2, 0.5]
density: 0.5
- model: TareksLab/MO-MODEL4-V0.1-LLaMa-70B
parameters:
weight: [0.1, 0.1, 0.2, 0.4, 0.2]
density: 0.5
- model: TareksLab/MO-MODEL5-V0.3-LLaMa-70B
parameters:
weight: [0.1, 0.2, 0.4, 0.2, 0.1]
density: 0.5
- model: TareksLab/MO-MODEL3-V0.2-LLaMa-70B
parameters:
weight: [0.2, 0.4, 0.2, 0.1, 0.1]
density: 0.5
- model: TareksLab/MO-MODEL2-V0.2-LLaMa-70B
parameters:
weight: [0.5, 0.2, 0.1, 0.1, 0.1]
density: 0.5
- model: TareksLab/MO-MODEL1-V1-LLaMa-70B
parameters:
weight: 0.10
density: 0.5
merge_method: dare_ties
base_model: TareksLab/MO-MODEL6-V0.1-LLaMa-70B
parameters:
normalize: false
int8_mask: true
dtype: float32
out_dtype: bfloat16
chat_template: llama3
tokenizer:
source: base
📄 許可證
該模型使用的許可證為llama3.3。
