🚀 Qwen2.5モデルの最適マージに関するREADME
1つのベースモデルと2つのファインチューニング済みモデルをマージする最適な方法は何でしょうか?
このREADMEでは、Qwen2.5モデルのマージに関する最適な方法とその公式について解説します。
🚀 クイックスタート
ベースモデル
- mergekit-community/Qwen2.5-7B-della
- mergekit-community/Qwen2.5-7B-ties
- Qwen/Qwen2.5-7B-Instruct
- Qwen/Qwen2.5-7B-Instruct-1M
- mergekit-community/Qwen2.5-7B-ties-1M
- Qwen/Qwen2.5-7B
- mergekit-community/Qwen2.5-7B-della-1M
ライブラリ名
transformers
タグ
ライセンス
apache-2.0
言語
パイプラインタグ
text-generation
最適マージモデル
Qwen2.5-7B-YOYO-super
Qwen2.5-14B-YOYO-super
これらのモデルは、無数のマージ実験の結果得られた最適なモデルです。
✨ 主な機能
前世代のマージ公式
models:
- model: Qwen/Qwen2.5-7B-Instruct
parameters:
density: 1
weight: 1
lambda: 0.9
- model: Qwen/Qwen2.5-7B-Instruct-1M
parameters:
density: 1
weight: 1
lambda: 0.9
merge_method: della
base_model: Qwen/Qwen2.5-7B
parameters:
density: 1
weight: 1
lambda: 0.9
normalize: true
int8_mask: true
dtype: bfloat16
tokenizer_source: base
この公式は、前世代のモデルのマージに広く使用されていましたが、いくつかの欠点があります。
- ベースモデルの知識の保持が比較的少ない。
- 数学的およびコーディング能力が低下している。
現世代のマージ公式
models:
- model: Qwen/Qwen2.5-7B-instruct
parameters:
density: 1
weight: 1
lambda: 0.9
merge_method: della
base_model: Qwen/Qwen2.5-7B
parameters:
density: 1
weight: 1
lambda: 0.9
normalize: true
int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-7B-della
models:
- model: Qwen/Qwen2.5-7B-instruct-1M
parameters:
density: 1
weight: 1
lambda: 0.9
merge_method: della
base_model: Qwen/Qwen2.5-7B
parameters:
density: 1
weight: 1
lambda: 0.9
normalize: true
int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-7B-della-1M
models:
- model: Qwen/Qwen2.5-7B-instruct
parameters:
density: 1
weight: 1
merge_method: ties
base_model: Qwen/Qwen2.5-7B
parameters:
density: 1
weight: 1
normalize: true
int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-7B-ties
models:
- model: Qwen/Qwen2.5-7B-instruct-1M
parameters:
density: 1
weight: 1
merge_method: ties
base_model: Qwen/Qwen2.5-7B
parameters:
density: 1
weight: 1
normalize: true
int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-7B-ties-1M
merge_method: model_stock
base_model: Qwen/Qwen2.5-7B
models:
- model: mergekit-community/Qwen2.5-7B-della
- model: mergekit-community/Qwen2.5-7B-della-1M
- model: mergekit-community/Qwen2.5-7B-ties
- model: mergekit-community/Qwen2.5-7B-ties-1M
- model: Qwen/Qwen2.5-7B-instruct-1M
- model: Qwen/Qwen2.5-7B-instruct
tokenizer_source: base
int8_mask: true
normalize: true
dtype: float16
この現世代の公式では、命令追従性がわずかに低下するものの、その他のすべての面で大幅な改善が見られます。また、この公式は、次世代のYOYOモデルの開発にも使用されます。
支援のお願い
*YOYO-AI は、優れた性能を持つマージモデルをリリースするだけでなく、完全かつ高品質なモデルマージ公式 を公開しています。これにより、オープンソースコミュニティにおけるモデルマージ技術の進歩を促進したいと考えています。
もしあなたがモデルをマージする際にこの公式を使用していただけるなら、YOYO-AIにとって最大の支援となります!