🚀 Mixtral-8x7Bのモデルカード
Mixtral-8x7B大規模言語モデル(LLM)は、事前学習された生成型の疎なエキスパートミックスチャーです。Mistral-8x7Bは、テストしたほとんどのベンチマークでLlama 2 70Bを上回っています。
このモデルの詳細については、リリースブログ記事をご覧ください。
🚀 クイックスタート
モデルの実行
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "mistralai/Mixtral-8x7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Hello my name is"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
デフォルトでは、transformersはモデルをフル精度でロードします。そのため、HFエコシステムで提供している最適化機能を通じて、モデルを実行するためのメモリ要件をさらに削減することに興味があるかもしれません。
半精度での実行
float16
精度はGPUデバイスでのみ動作します。
クリックして展開
+ import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "mistralai/Mixtral-8x7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
+ model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16).to(0)
text = "Hello my name is"
+ inputs = tokenizer(text, return_tensors="pt").to(0)
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
bitsandbytes
を使用した低精度(8ビットと4ビット)での実行
クリックして展開
+ import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "mistralai/Mixtral-8x7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
+ model = AutoModelForCausalLM.from_pretrained(model_id, load_in_4bit=True)
text = "Hello my name is"
+ inputs = tokenizer(text, return_tensors="pt").to(0)
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Flash Attention 2を使用したモデルのロード
クリックして展開
+ import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "mistralai/Mixtral-8x7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
+ model = AutoModelForCausalLM.from_pretrained(model_id, use_flash_attention_2=True)
text = "Hello my name is"
+ inputs = tokenizer(text, return_tensors="pt").to(0)
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
✨ 主な機能
- 事前学習された生成型の疎なエキスパートミックスチャーであり、多くのベンチマークでLlama 2 70Bを上回る性能を発揮します。
- HFエコシステムで提供される最適化機能を通じて、メモリ要件を削減できます。
🔧 注意事項
警告
このリポジトリには、モデルをvLLMでサービングするための重みと、Hugging Faceのtransformersライブラリと互換性のある重みが含まれています。これは元のMixtralのtorrentリリースに基づいていますが、ファイル形式とパラメータ名は異なります。なお、現時点ではモデルをHFでインスタンス化することはできません。
告知
Mixtral-8x7Bは事前学習されたベースモデルであり、モデレーションメカニズムはありません。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
ミストラルAIチーム
Albert Jiang, Alexandre Sablayrolles, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Louis Ternon, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed.
⚠️ 重要提示
個人データの処理方法について詳しく知りたい場合は、プライバシーポリシーをお読みください。