🚀 MN-12B-Mag-Mell-R1
このモデルは、事前学習された言語モデルをmergekitを使用してマージしたものです。様々なユースケースでの活用が期待できます。
Welcome, brave one; you've come a long mile.
新規ユーザーへの注意
"R1" は "Revision 1" を意味します。このモデルはDeepSeekのR1よりも前に作成されており、DeepSeekが同じバージョニングスキームを使っているため、やや混乱を招く可能性があります。
公式モデルリンク
🚀 クイックスタート
MN-12B-Mag-Mell-R1は、事前学習された言語モデルをマージして作成されたモデルです。以下に使用方法の詳細を説明します。
✨ 主な機能
このモデルは、様々な分野での表現能力が高く、世界構築能力や文章生成能力に優れています。特に、フィクションやクリエイティブなユースケースに適しています。
📦 インストール
このドキュメントには具体的なインストール手順が記載されていないため、このセクションを省略します。
💻 使用例
このドキュメントには具体的なコード例が記載されていないため、このセクションを省略します。
📚 ドキュメント
使用詳細
サンプラー設定
Mag Mell R1は、Temp 1.25とMinP 0.2でテストされました。この設定では10Kまで比較的安定していましたが、やや"hot"な設定かもしれません。文章の一貫性に問題が生じた場合は、MinPを増やすか、Temperatureを下げることを試してみてください。
他のサンプラーは必要ないと思われます。XTCは出力を破壊することがわかっています。DRYは少量で使用すれば問題ないでしょう。その他のペナルティタイプのサンプラーは避けるべきです。
フォーマット
Mag MellのベースモデルはMistral-Nemo-Base-2407-chatmlであり、ChatMLフォーマットが推奨されます。
初期のテストバージョンではトークンが漏れる傾向がありましたが、これはほぼ解消されています。最近(2024年12月18日)、キャッシュ量子化がこの問題を引き起こす、または悪化させる可能性があることが判明しました。
マージ詳細
Mag Mellは、TiefighterやUmbral Mindのようなハイパーマージにインスパイアされた多段階マージモデルです。フィクションやクリエイティブなユースケースに最適な汎用的な "Best of Nemo" モデルを目指しています。
6つのモデルが3つのカテゴリに基づいて選ばれ、それらはペアになって層加重SLERPを使用してマージされ、中間的な "スペシャリスト" が作成されました。これらのスペシャリストはそのドメインで評価され、DARE-TIESを使用してベースモデルにマージされました。ハイパーパラメータは、3つのドメインの重複による干渉を減らすように選ばれました。このアプローチのアイデアは、各構成要素の最良の特性を抽出し、タスクベクトルが構成要素の単なる合計以上の表現力を持つモデルを作成することです。
3つのスペシャリストは以下の通りです。
Nemoのチューニングが本格的に始まって以来、私はこのマージを夢見ていました。テストの結果、Mag Mellは同クラスの他のモデルに比べて世界構築能力が抜群で、Tiefighterのような古いアドベンチャーモデルに匹敵します。また、微調整を行っていないにもかかわらず、文章の乱れが少なく、頻繁に魅力的な比喩を考え出し、私たちを驚かせてくれます。
自慢するつもりはありませんが、このモデルの完成度に本当に誇りを持っています。是非、良いフィードバックも悪いフィードバックも残していただけると幸いです。
いつも通り、ToasterのフィードバックとFizzのコンピューティング資源の提供、そしてKoboldAI Discordのリソース提供に感謝します。
マージ方法
このモデルは、DARE TIES マージ方法を使用し、IntervitensInc/Mistral-Nemo-Base-2407-chatml をベースにマージされました。
マージされたモデル
以下のモデルがマージに含まれています。
- IntervitensInc/Mistral-Nemo-Base-2407-chatml
- nbeerbower/mistral-nemo-bophades-12B
- nbeerbower/mistral-nemo-wissenschaft-12B
- elinas/Chronos-Gold-12B-1.0
- Fizzarolli/MN-12b-Sunrose
- nbeerbower/mistral-nemo-gutenberg-12B-v4
- anthracite-org/magnum-12b-v2.5-kto
設定
このモデルを作成するために使用されたYAML設定は以下の通りです。
モンク:
models:
- model: nbeerbower/mistral-nemo-bophades-12B
- model: nbeerbower/mistral-nemo-wissenschaft-12B
merge_method: slerp
base_model: nbeerbower/mistral-nemo-bophades-12B
parameters:
t: [0.1, 0.2, 0.4, 0.6, 0.6, 0.4, 0.2, 0.1]
dtype: bfloat16
tokenizer_source: base
ヒーロー:
models:
- model: elinas/Chronos-Gold-12B-1.0
- model: Fizzarolli/MN-12b-Sunrose
merge_method: slerp
base_model: elinas/Chronos-Gold-12B-1.0
parameters:
t: [0.1, 0.2, 0.4, 0.6, 0.6, 0.4, 0.2, 0.1]
dtype: bfloat16
tokenizer_source: base
神:
models:
- model: nbeerbower/mistral-nemo-gutenberg-12B-v4
- model: anthracite-org/magnum-12b-v2.5-kto
merge_method: slerp
base_model: nbeerbower/mistral-nemo-gutenberg-12B-v4
parameters:
t: [0, 0.1, 0.2, 0.25, 0.25, 0.2, 0.1, 0]
dtype: bfloat16
tokenizer_source: base
Mag Mell:
models:
- model: monk
parameters:
density: 0.7
weight: 0.5
- model: hero
parameters:
density: 0.9
weight: 1
- model: deity
parameters:
density: 0.5
weight: 0.7
merge_method: dare_ties
base_model: IntervitensInc/Mistral-Nemo-Base-2407-chatml
tokenizer_source: base
背景知識
アイルランド神話において、Mag Mell(現代のスペルはMagh Meall、「楽園の平原」を意味する)はケルトの異界の名前の一つで、死と栄光を通じて到達できる神話上の領域です。現存する神話の記述において、明確に死後の世界として記載されることはありません。むしろ、神々が住む楽園として描かれることが多く、時折、冒険心旺盛な人間によって訪れられます。島の姿では、様々な伝説的なアイルランドの英雄や僧侶によって訪れられ、アドベンチャー神話やエクトレーの基礎となっています。