🚀 Mixtral-8x22Bのモデルカード
Mixtral-8x22Bは、事前学習された生成型の疎なエキスパート混合モデルです。Mistral AIは、ベースモデルと命令調整済みモデルの両方の重みを公式のMistral AI組織に公開しました。
mistralai/Mixtral-8x22B-v0.1 と mistralai/Mixtral-8x22B-Instruct-v0.1 を参照してください。
HuggingFaceのスタッフがこのリポジトリを公式の新しいリポジトリ mistral-community/Mixtral-8x22B-v0.1 にクローンしました。必要に応じてそこからダウンロードできます。
HFのスタッフにクレジットを与えてくれたことに感謝します!
また、こちらに面白い音楽 があります!owo...
こちらのスクリプト を使用してHuggingFace Transformers形式に変換されています。
🚀 クイックスタート
モデルの実行
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "v2ray/Mixtral-8x22B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Hello my name is"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
デフォルトでは、transformersはモデルを完全精度でロードします。そのため、HFエコシステムで提供される最適化を通じて、モデルを実行するためのメモリ要件をさらに削減することに興味があるかもしれません。
半精度での実行
注意: float16
精度はGPUデバイスでのみ動作します。
クリックして展開
+ import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "v2ray/Mixtral-8x22B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
+ model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16).to(0)
text = "Hello my name is"
+ inputs = tokenizer(text, return_tensors="pt").to(0)
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
bitsandbytes
を使用した低精度(8ビットと4ビット)での実行
クリックして展開
+ import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "v2ray/Mixtral-8x22B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
+ model = AutoModelForCausalLM.from_pretrained(model_id, load_in_4bit=True)
text = "Hello my name is"
+ inputs = tokenizer(text, return_tensors="pt").to(0)
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Flash Attention 2を使用したモデルのロード
クリックして展開
+ import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "v2ray/Mixtral-8x22B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
+ model = AutoModelForCausalLM.from_pretrained(model_id, use_flash_attention_2=True)
text = "Hello my name is"
+ inputs = tokenizer(text, return_tensors="pt").to(0)
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
注意事項
Mixtral-8x22B-v0.1は事前学習されたベースモデルであり、モデレーションメカニズムを持っていません。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
Mistral AIチーム
Albert Jiang, Alexandre Sablayrolles, Alexis Tacnet, Antoine Roux, Arthur Mensch, Audrey Herblin-Stoop, Baptiste Bout, Baudouin de Monicault, Blanche Savary, Bam4d, Caroline Feldman, Devendra Singh Chaplot, Diego de las Casas, Eleonore Arcelin, Emma Bou Hanna, Etienne Metzger, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Harizo Rajaona, Jean-Malo Delignon, Jia Li, Justus Murke, Louis Martin, Louis Ternon, Lucile Saulnier, Lélio Renard Lavaud, Margaret Jennings, Marie Pellat, Marie Torelli, Marie-Anne Lachaux, Nicolas Schuhl, Patrick von Platen, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Thibaut Lavril, Timothée Lacroix, Théophile Gervet, Thomas Wang, Valera Nemychnikova, William El Sayed, William Marshall.