🚀 CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity
本項目是一個文本生成模型,通過合併多個模型並採用新的實驗性實現“dare ties”得到。它在多個文本生成任務的評估中表現出色,具有較高的準確性。
🚀 快速開始
該模型可能已被 https://huggingface.co/brucethemoose/Yi-34B-200K-DARE-merge-v5 替代。以下是舊模型的描述:
✨ 主要特性
- 多模型融合:將 Dolphin-2.2-yi-34b-200k、Nous-Capybara-34B、Tess-M-v1.4、Airoboros-3_1-yi-34b-200k、PlatYi-34B-200K-Q 和 Una-xaberius-34b-v1beta 等模型通過 mergekit 以新的實驗性“dare ties”實現進行合併。
- 高密度合併:採用高於推薦密度的合併方式,在困惑度測試和長上下文提示測試中表現較好,在 Hugging Face 排行榜上排名更高。
- 多種提示模板支持:可能識別來自 Dolphin+Xaberius 的 ChatML 和來自 Airoboros 的 Llama-chat 提示模板。
📦 安裝指南
文檔未提及具體安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
SYSTEM: {system_message}
USER: {prompt}
ASSISTANT:
此為 Orca-Vicuna 提示模板,該模型可能識別來自 Dolphin+Xaberius 的 ChatML 和來自 Airoboros 的 Llama-chat 提示模板。有時模型會像 Capybara 一樣將停止標記“拼寫”為 </s>
,因此可能需要添加 </s>
作為額外的停止條件。
📚 詳細文檔
運行說明
作為 Yi 模型,嘗試禁用 BOS 標記,或使用 0.05 - 0.13 的 MinP、較低的溫度、輕微的重複懲罰,且不使用其他採樣器。默認情況下,Yi 模型運行時“熱度”較高。
24GB GPU 可以使用 exllamav2 在 45K - 75K 上下文 下運行 Yi-34B-200K 模型。更多詳細信息可參考 此帖子。
建議使用在與所需任務相似的數據上進行分析的 exl2 量化方法。在低 bpw 時,模型對量化數據特別敏感!已在 vicuuna chat + 小說寫作上發佈了自己的量化版本:4bpw 3.1bpw。
要在 transformers 和 vllm 等全上下文後端中加載該模型,必須 將 config.json
中的 max_position_embeddings
更改為低於 200,000 的值,否則會出現內存不足(OOM)錯誤!
測試說明
- 密度測試:通過困惑度測試和長上下文提示對各種密度進行了測試。與《Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch》論文的研究結果相反,相對較高的密度似乎表現更好。
- 合併密度:此特定版本的合併密度超過了“推薦”的最大密度 0.5。這似乎導致了更好的困惑度,並且在 Hugging Face 排行榜上的排名更高,但不確定這是否意味著輸出效果更好。
- 權重優化:權重總和為 1 似乎是最優的。
- 合併方法優勢:“Dare Ties”合併方法似乎比常規的 ties 合併、任務算術合併或 slerp 合併產生更好、更低困惑度的結果。
- Xaberuis 合併處理:Xaberuis 不是 200K 模型,因此以非常低的密度進行合併,以在保留 Yi 200K 長上下文性能的同時繼承 Xaberuis 的部分性能。
- 模型選擇原因:選擇不包括其他微調模型,因為它們不是在 200K 基礎上訓練的。如果有其他 200K 微調模型出現,請告知。
🔧 技術細節
本模型通過 mergekit 以新的實驗性“dare ties”實現進行合併,合併配置如下:
models:
- model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
# no parameters necessary for base model
- model: /home/alpha/Storage/Models/Raw/migtissera_Tess-34B-v1.4
parameters:
weight: 0.19
density: 0.6
- model: /home/alpha//Storage/Models/Raw/bhenrym14_airoboros-3_1-yi-34b-200k
parameters:
weight: 0.14
density: 0.5
- model: /home/alpha/Storage/Models/Raw/Nous-Capybara-34B
parameters:
weight: 0.19
density: 0.6
- model: /home/alpha/Storage/Models/Raw/kyujinpy_PlatYi-34B-200K-Q
parameters:
weight: 0.14
density: 0.5
- model: /home/alpha/FastModels/ehartford_dolphin-2.2-yi-34b-200k
parameters:
weight: 0.19
density: 0.6
- model: /home/alpha/FastModels/fblgit_una-xaberius-34b-v1beta
parameters:
weight: 0.15
density: 0.08
merge_method: dare_ties
base_model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
parameters:
int8_mask: true
dtype: bfloat16
📄 許可證
本模型使用的許可證為 yi-license。
模型評估結果
Open LLM Leaderboard 評估結果
詳細結果可查看 此處
指標 |
值 |
平均值 |
72.15 |
AI2 推理挑戰 (25 次少樣本學習) |
67.41 |
HellaSwag (10 次少樣本學習) |
85.77 |
MMLU (5 次少樣本學習) |
77.44 |
TruthfulQA (0 次少樣本學習) |
57.84 |
Winogrande (5 次少樣本學習) |
83.11 |
GSM8k (5 次少樣本學習) |
61.33 |
致謝