Mixtral-8x7B-v0.1オープンソースAIモデル - Llama 2 70Bを超える性能で多彩なタスク処理を支援

ホーム

Mixtral 8x7B V0.1

mistralaiによって開発

Mixtral-8x7Bは事前学習済みの生成的スパース混合エキスパートモデルで、ほとんどのベンチマークテストでLlama 2 70Bを上回る性能を示しています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #スパース混合エキスパート #多言語生成 #高性能LLM

ダウンロード数 42.78k

リリース時間 : 12/1/2023

モデル概要

これは多言語対応の大規模言語モデルで、混合エキスパートアーキテクチャを採用しており、テキスト生成タスクに適しています。

モデル特徴

混合エキスパートアーキテクチャ

スパース混合エキスパートモデル設計を採用し、モデル効率を向上

多言語サポート

フランス語、イタリア語、ドイツ語、スペイン語、英語の5言語をサポート

高性能

ほとんどのベンチマークテストでLlama 2 70Bモデルを上回る性能

モデル能力

多言語テキスト生成

長文処理

文脈理解

使用事例

テキスト生成

コンテンツ作成

記事やストーリーなどのクリエイティブコンテンツを自動生成

対話システム

インテリジェントチャットボットの構築

言語処理

多言語翻訳

複数言語間の翻訳タスクをサポート

🚀 Mixtral-8x7Bのモデルカード

Mixtral-8x7B大規模言語モデル（LLM）は、事前学習された生成型の疎なエキスパートミックスチャーです。Mistral-8x7Bは、テストしたほとんどのベンチマークでLlama 2 70Bを上回っています。

このモデルの詳細については、リリースブログ記事をご覧ください。

🚀 クイックスタート

モデルの実行

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "mistralai/Mixtral-8x7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)

model = AutoModelForCausalLM.from_pretrained(model_id)

text = "Hello my name is"
inputs = tokenizer(text, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

デフォルトでは、transformersはモデルをフル精度でロードします。そのため、HFエコシステムで提供している最適化機能を通じて、モデルを実行するためのメモリ要件をさらに削減することに興味があるかもしれません。

半精度での実行

float16 精度はGPUデバイスでのみ動作します。

クリックして展開

+ import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "mistralai/Mixtral-8x7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)

+ model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16).to(0)

text = "Hello my name is"
+ inputs = tokenizer(text, return_tensors="pt").to(0)

outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

`bitsandbytes` を使用した低精度（8ビットと4ビット）での実行

クリックして展開

+ import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "mistralai/Mixtral-8x7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)

+ model = AutoModelForCausalLM.from_pretrained(model_id, load_in_4bit=True)

text = "Hello my name is"
+ inputs = tokenizer(text, return_tensors="pt").to(0)

outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Flash Attention 2を使用したモデルのロード

クリックして展開

+ import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "mistralai/Mixtral-8x7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)

+ model = AutoModelForCausalLM.from_pretrained(model_id, use_flash_attention_2=True)

text = "Hello my name is"
+ inputs = tokenizer(text, return_tensors="pt").to(0)

outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主な機能

事前学習された生成型の疎なエキスパートミックスチャーであり、多くのベンチマークでLlama 2 70Bを上回る性能を発揮します。
HFエコシステムで提供される最適化機能を通じて、メモリ要件を削減できます。

🔧 注意事項

警告

このリポジトリには、モデルをvLLMでサービングするための重みと、Hugging Faceのtransformersライブラリと互換性のある重みが含まれています。これは元のMixtralのtorrentリリースに基づいていますが、ファイル形式とパラメータ名は異なります。なお、現時点ではモデルをHFでインスタンス化することはできません。

告知

Mixtral-8x7Bは事前学習されたベースモデルであり、モデレーションメカニズムはありません。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

ミストラルAIチーム

Albert Jiang, Alexandre Sablayrolles, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Louis Ternon, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed.