🚀 MN-12B-Mag-Mell-R1
MN-12B-Mag-Mell-R1 是使用 mergekit 對預訓練語言模型進行合併得到的模型。它結合了多個優秀模型的特點,在世界構建能力和散文創作方面表現出色。
歡迎,勇敢的人;你已經走了很長的路。
⚠️ 重要提示
新用戶請注意:這裡的“R1”表示“版本 1”。此模型早於 DeepSeek 的 R1 版本;DeepSeek 無意中讓這種版本命名方案變得很麻煩!
我提供的官方 Q4_K_M、Q6_K 和 Q_8 GGUF 格式
mradermacher 提供的更多版本
toastypigeon 提供的官方 EXL2 格式
✨ 主要特性
- 多模型融合:融合了多個預訓練語言模型的優勢,如 IntervitensInc/Mistral-Nemo-Base-2407-chatml、nbeerbower/mistral-nemo-bophades-12B 等。
- 出色的世界構建能力:在測試中展現出了超越同類模型的世界構建能力,可與老牌冒險模型如 Tiefighter 相媲美。
- 優質的散文創作:生成的散文“雜亂感”極少,經常能構思出令人驚歎的隱喻。
📚 詳細文檔
使用詳情
採樣器設置
Mag Mell R1 在溫度(Temp)為 1.25 和最小概率(MinP)為 0.2 的條件下進行了測試。在長度達到 10K 時,這種設置相當穩定,但可能“熱度”過高。
如果出現連貫性問題,可嘗試 增加 最小概率(MinP)或 降低 溫度(Temperature)。
其他採樣器通常不是必需的。XTC 採樣器會破壞輸出結果;DRY 採樣器若謹慎使用是可以的;其他懲罰類型的採樣器建議避免使用。
格式設置
Mag Mell 的基礎模型是 Mistral-Nemo-Base-2407-chatml,因此建議使用 ChatML 格式。
早期測試版本存在令牌洩漏的傾向,但這個問題應該已經基本解決。最近(2024 年 12 月 18 日)發現,緩存量化可能會導致或加劇這個問題。
合併詳情
Mag Mell 是一個多階段合併模型,靈感來源於 Tiefighter 和 Umbral Mind 等超融合模型。其目標是創建一個適用於任何虛構、創意場景的通用“Nemo 最佳”模型。
基於三個類別選擇了 6 個模型;然後將它們兩兩配對,通過層加權 SLERP 方法合併,創建中間“專家模型”,並在各自領域進行評估。
接著,使用 DARE-TIES 方法將這些專家模型合併到基礎模型中,並選擇了合適的超參數以減少三個領域重疊造成的干擾。這種方法的理念是提取每個組件的最佳特性,生成的模型任務向量能發揮出超越各部分之和的效果。
三個專家模型如下:
從 Nemo 微調模型開始大量出現時,我就一直夢想著進行這次合併。通過測試,Mag Mell 展現出了同類模型中無與倫比的世界構建能力,其生成的散文“雜亂感”極少(考慮到沒有進行微調,這已經相當不錯了),還經常構思出令人驚歎的隱喻,讓我們一直為之驚歎。
我不想自吹自擂,但我真的為這個模型的成果感到驕傲。請留下您的反饋,無論是好是壞。
在此,一如既往地特別感謝 Toaster 的反饋,Fizz 對計算資源的資助,以及 KoboldAI Discord 提供的資源。
合併方法
此模型使用 DARE TIES 合併方法,以 IntervitensInc/Mistral-Nemo-Base-2407-chatml 為基礎模型進行合併。
合併的模型
以下模型參與了合併:
- IntervitensInc/Mistral-Nemo-Base-2407-chatml
- nbeerbower/mistral-nemo-bophades-12B
- nbeerbower/mistral-nemo-wissenschaft-12B
- elinas/Chronos-Gold-12B-1.0
- Fizzarolli/MN-12b-Sunrose
- nbeerbower/mistral-nemo-gutenberg-12B-v4
- anthracite-org/magnum-12b-v2.5-kto
配置
以下是用於生成此模型的 YAML 配置:
僧侶:
models:
- model: nbeerbower/mistral-nemo-bophades-12B
- model: nbeerbower/mistral-nemo-wissenschaft-12B
merge_method: slerp
base_model: nbeerbower/mistral-nemo-bophades-12B
parameters:
t: [0.1, 0.2, 0.4, 0.6, 0.6, 0.4, 0.2, 0.1]
dtype: bfloat16
tokenizer_source: base
英雄:
models:
- model: elinas/Chronos-Gold-12B-1.0
- model: Fizzarolli/MN-12b-Sunrose
merge_method: slerp
base_model: elinas/Chronos-Gold-12B-1.0
parameters:
t: [0.1, 0.2, 0.4, 0.6, 0.6, 0.4, 0.2, 0.1]
dtype: bfloat16
tokenizer_source: base
神靈:
models:
- model: nbeerbower/mistral-nemo-gutenberg-12B-v4
- model: anthracite-org/magnum-12b-v2.5-kto
merge_method: slerp
base_model: nbeerbower/mistral-nemo-gutenberg-12B-v4
parameters:
t: [0, 0.1, 0.2, 0.25, 0.25, 0.2, 0.1, 0]
dtype: bfloat16
tokenizer_source: base
Mag Mell:
models:
- model: monk
parameters:
density: 0.7
weight: 0.5
- model: hero
parameters:
density: 0.9
weight: 1
- model: deity
parameters:
density: 0.5
weight: 0.7
merge_method: dare_ties
base_model: IntervitensInc/Mistral-Nemo-Base-2407-chatml
tokenizer_source: base
在愛爾蘭神話中,Mag Mell(現代拼寫:Magh Meall,意為“宜人的平原”)是凱爾特異世界的名稱之一,這是一個可以通過死亡和/或榮耀到達的神話領域……在現存的任何神話記載中,它從未被明確表述為來世;相反,它通常被描繪成一個由神靈居住的天堂,偶爾會有一些勇敢的凡人到訪。以島嶼的形式出現時,它曾被各種傳奇的愛爾蘭英雄和僧侶造訪,構成了冒險神話或 echtrae 的基礎……
模型信息
屬性 |
詳情 |
基礎模型 |
IntervitensInc/Mistral-Nemo-Base-2407-chatml、nbeerbower/mistral-nemo-bophades-12B、nbeerbower/mistral-nemo-wissenschaft-12B、elinas/Chronos-Gold-12B-1.0、Fizzarolli/MN-12b-Sunrose、nbeerbower/mistral-nemo-gutenberg-12B-v4、anthracite-org/magnum-12b-v2.5-kto |
庫名稱 |
transformers |
標籤 |
mergekit、merge |