🚀 チッカ・ミックストラル-3X7B
このモデルは、テキスト生成を行うためのMixture of Experts(MoE)方式でマージされた大規模言語モデル(LLM)です。3つのMistralベースのモデルを統合し、様々なタスクで高い性能を発揮します。
🚀 クイックスタート
このモデルを使用するには、以下のPythonコードを参考にしてください。
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("Chickaboo/Chicka-Mistral-3x7b")
tokenizer = AutoTokenizer.from_pretrained("Chickaboo/Chicka-Mixtral-3x7b")
messages = [
{"role": "user", "content": "What is your favourite condiment?"},
{"role": "assistant", "content": "Well, I'm quite partial to a good squeeze of fresh lemon juice. It adds just the right amount of zesty flavour to whatever I'm cooking up in the kitchen!"},
{"role": "user", "content": "Do you have mayonnaise recipes?"}
]
encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = encodeds.to(device)
model.to(device)
generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])
✨ 主な機能
- 多様なエキスパートモデルの統合:会話、コード、数学の各分野に特化したエキスパートモデルを統合することで、様々なタスクに対応できます。
- 高い性能:Open LLM Leaderboardsの複数のベンチマークで高いスコアを記録しています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("Chickaboo/Chicka-Mistral-3x7b")
tokenizer = AutoTokenizer.from_pretrained("Chickaboo/Chicka-Mixtral-3x7b")
messages = [
{"role": "user", "content": "What is your favourite condiment?"},
{"role": "assistant", "content": "Well, I'm quite partial to a good squeeze of fresh lemon juice. It adds just the right amount of zesty flavour to whatever I'm cooking up in the kitchen!"},
{"role": "user", "content": "Do you have mayonnaise recipes?"}
]
encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = encodeds.to(device)
model.to(device)
generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])
📚 ドキュメント
モデルの説明
このモデルは、3つのMistralベースのモデルを統合したMixture of Experts方式のLLMです。各モデルは以下の通りです。
- ベースモデル/会話エキスパート:openchat/openchat-3.5-0106
- コードエキスパート:beowolx/CodeNinja-1.0-OpenChat-7B
- 数学エキスパート:meta-math/MetaMath-Mistral-7B
以下は、マージに使用したMergekitの設定です。
base_model: openchat/openchat-3.5-0106
experts:
- source_model: openchat/openchat-3.5-0106
positive_prompts:
- "chat"
- "assistant"
- "tell me"
- "explain"
- "I want"
- source_model: beowolx/CodeNinja-1.0-OpenChat-7B
positive_prompts:
- "code"
- "python"
- "javascript"
- "programming"
- "algorithm"
- "C#"
- "C++"
- "debug"
- "runtime"
- "html"
- "command"
- "nodejs"
- source_model: meta-math/MetaMath-Mistral-7B
positive_prompts:
- "reason"
- "math"
- "mathematics"
- "solve"
- "count"
- "calculate"
- "arithmetic"
- "algebra"
Open LLM Leaderboards
このモデルのOpen LLM Leaderboardsでの評価結果は以下の通りです。
ベンチマーク |
Chicka-Mixtral-3X7B |
Mistral-7B-Instruct-v0.2 |
Meta-Llama-3-8B |
平均 |
69.19 |
60.97 |
62.55 |
ARC |
64.08 |
59.98 |
59.47 |
Hellaswag |
83.96 |
83.31 |
82.09 |
MMLU |
64.87 |
64.16 |
66.67 |
TruthfulQA |
50.51 |
42.15 |
43.95 |
Winogrande |
81.06 |
78.37 |
77.35 |
GSM8K |
70.66 |
37.83 |
45.79 |
📄 ライセンス
このモデルはMITライセンスの下で提供されています。