🚀 CosmicBun-8B
このモデルは、事前学習された言語モデルをmergekitを使用してマージしたものです。テキスト生成タスクにおいて高い性能を発揮します。
🚀 クイックスタート
このモデルは、テキスト生成タスクに使用できます。詳細な使用方法については、各種ライブラリのドキュメントを参照してください。
✨ 主な機能
- 複数の事前学習モデルをマージし、高い性能を実現。
- テキスト生成タスクにおいて、様々なデータセットで良好な結果を示す。
📚 ドキュメント
マージ方法
このモデルは、DARE TIESマージ方法を使用し、Locutusque/llama-3-neural-chat-v1-8bをベースにマージされています。
マージされたモデル
以下のモデルがマージに含まれています:
設定
このモデルを生成するために使用されたYAML設定は以下の通りです:
base_model: Locutusque/llama-3-neural-chat-v1-8b
dtype: bfloat16
merge_method: dare_ties
parameters:
int8_mask: 1.0
normalize: 0.0
slices:
- sources:
- layer_range: [0, 4]
model: cognitivecomputations/dolphin-2.9-llama3-8b
parameters:
density: 1.0
weight: 0.6
- layer_range: [0, 4]
model: Weyaxi/Einstein-v6.1-Llama3-8B
parameters:
density: 0.6
weight: 0.5
- layer_range: [0, 4]
model: Locutusque/llama-3-neural-chat-v1-8b
parameters:
density: 1.0
weight: 0.5
- sources:
- layer_range: [4, 8]
model: cognitivecomputations/dolphin-2.9-llama3-8b
parameters:
density: 0.8
weight: 0.1
- layer_range: [4, 8]
model: Weyaxi/Einstein-v6.1-Llama3-8B
parameters:
density: 1.0
weight: 0.2
- layer_range: [4, 8]
model: Locutusque/llama-3-neural-chat-v1-8b
parameters:
density: 1.0
weight: 0.7
- sources:
- layer_range: [8, 12]
model: cognitivecomputations/dolphin-2.9-llama3-8b
parameters:
density: 0.7
weight: 0.1
- layer_range: [8, 12]
model: Weyaxi/Einstein-v6.1-Llama3-8B
parameters:
density: 0.7
weight: 0.2
- layer_range: [8, 12]
model: Locutusque/llama-3-neural-chat-v1-8b
parameters:
density: 0.7
weight: 0.6
- sources:
- layer_range: [12, 16]
model: cognitivecomputations/dolphin-2.9-llama3-8b
parameters:
density: 0.9
weight: 0.2
- layer_range: [12, 16]
model: Weyaxi/Einstein-v6.1-Llama3-8B
parameters:
density: 0.6
weight: 0.6
- layer_range: [12, 16]
model: Locutusque/llama-3-neural-chat-v1-8b
parameters:
density: 0.7
weight: 0.3
- sources:
- layer_range: [16, 20]
model: cognitivecomputations/dolphin-2.9-llama3-8b
parameters:
density: 1.0
weight: 0.2
- layer_range: [16, 20]
model: Weyaxi/Einstein-v6.1-Llama3-8B
parameters:
density: 1.0
weight: 0.2
- layer_range: [16, 20]
model: Locutusque/llama-3-neural-chat-v1-8b
parameters:
density: 0.9
weight: 0.4
- sources:
- layer_range: [20, 24]
model: cognitivecomputations/dolphin-2.9-llama3-8b
parameters:
density: 0.7
weight: 0.2
- layer_range: [20, 24]
model: Weyaxi/Einstein-v6.1-Llama3-8B
parameters:
density: 0.9
weight: 0.3
- layer_range: [20, 24]
model: Locutusque/llama-3-neural-chat-v1-8b
parameters:
density: 1.0
weight: 0.4
- sources:
- layer_range: [24, 28]
model: cognitivecomputations/dolphin-2.9-llama3-8b
parameters:
density: 1.0
weight: 0.4
- layer_range: [24, 28]
model: Weyaxi/Einstein-v6.1-Llama3-8B
parameters:
density: 0.8
weight: 0.2
- layer_range: [24, 28]
model: Locutusque/llama-3-neural-chat-v1-8b
parameters:
density: 0.9
weight: 0.4
- sources:
- layer_range: [28, 32]
model: cognitivecomputations/dolphin-2.9-llama3-8b
parameters:
density: 1.0
weight: 0.3
- layer_range: [28, 32]
model: Weyaxi/Einstein-v6.1-Llama3-8B
parameters:
density: 0.9
weight: 0.2
- layer_range: [28, 32]
model: Locutusque/llama-3-neural-chat-v1-8b
parameters:
density: 1.0
weight: 0.3
詳細な結果はこちらで確認できます。
メトリック |
値 |
平均 |
68.81 |
AI2 Reasoning Challenge (25-Shot) |
61.86 |
HellaSwag (10-Shot) |
84.29 |
MMLU (5-Shot) |
65.53 |
TruthfulQA (0-shot) |
54.08 |
Winogrande (5-shot) |
78.85 |
GSM8k (5-shot) |
68.23 |
📄 ライセンス
このモデルはMITライセンスの下で提供されています。