🚀 Mixtral-8x22B大语言模型
Mixtral-8x22B大语言模型(LLM)是一个预训练的生成式稀疏专家混合模型。它能为用户提供强大的语言生成能力,在多种自然语言处理任务中发挥重要作用。
🚀 快速开始
运行模型
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "mistralai/Mixtral-8x22B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Hello my name is"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
默认情况下,transformers库会以全精度加载模型。因此,你可能希望通过我们在HF生态系统中提供的优化方法,进一步降低运行模型的内存需求。
✨ 主要特性
- 多语言支持:支持法语、意大利语、德语、西班牙语和英语等多种语言。
- 专家混合模型:是预训练的生成式稀疏专家混合模型。
📚 详细文档
若需了解该模型的完整详细信息,请阅读我们的发布博客文章。
🔧 技术细节
警告
此仓库包含的权重与使用 vLLM 服务该模型以及Hugging Face的 transformers 库兼容。它基于原始的Mixtral 种子发布,但文件格式和参数名称不同。
注意事项
Mixtral-8x22B是一个预训练的基础模型,因此没有任何审核机制。
隐私提示
如果你想了解更多关于我们如何处理你的个人数据的信息,请阅读我们的 隐私政策。
📄 许可证
本项目采用Apache-2.0许可证。
👥 开发团队
Albert Jiang、Alexandre Sablayrolles、Alexis Tacnet、Antoine Roux、Arthur Mensch、Audrey Herblin - Stoop、Baptiste Bout、Baudouin de Monicault、Blanche Savary、Bam4d、Caroline Feldman、Devendra Singh Chaplot、Diego de las Casas、Eleonore Arcelin、Emma Bou Hanna、Etienne Metzger、Gianna Lengyel、Guillaume Bour、Guillaume Lample、Harizo Rajaona、Jean - Malo Delignon、Jia Li、Justus Murke、Louis Martin、Louis Ternon、Lucile Saulnier、Lélio Renard Lavaud、Margaret Jennings、Marie Pellat、Marie Torelli、Marie - Anne Lachaux、Nicolas Schuhl、Patrick von Platen、Pierre Stock、Sandeep Subramanian、Sophia Yang、Szymon Antoniak、Teven Le Scao、Thibaut Lavril、Timothée Lacroix、Théophile Gervet、Thomas Wang、Valera Nemychnikova、William El Sayed、William Marshall 。