🚀 Mistral-Nemo-Base-2407模型卡片
Mistral-Nemo-Base-2407大语言模型(LLM)是一款由Mistral AI和NVIDIA联合训练的、具有120亿参数的预训练生成式文本模型,它在性能上显著超越了现有的同规模或更小规模的模型。
如需了解该模型的更多详细信息,请参考我们的发布博客文章。
✨ 主要特性
- 开源许可:基于Apache 2许可证发布。
- 版本多样:提供预训练版本和指令微调版本。
- 上下文窗口大:使用128k上下文窗口进行训练。
- 多语言与代码数据:在大量的多语言和代码数据上进行训练。
- 可替代Mistral 7B:可直接替代Mistral 7B模型。
📚 详细文档
模型架构
Mistral Nemo是一个Transformer模型,其架构参数如下:
- 层数:40
- 维度:5120
- 头维度:128
- 隐藏维度:14436
- 激活函数:SwiGLU
- 头的数量:32
- 键值头的数量:8(GQA)
- 词汇表大小:2**17 ≈ 128k
- 旋转嵌入(theta = 1M)
评估指标
主要基准测试
基准测试 |
得分 |
HellaSwag(零样本) |
83.5% |
Winogrande(零样本) |
76.8% |
OpenBookQA(零样本) |
60.6% |
CommonSenseQA(零样本) |
70.4% |
TruthfulQA(零样本) |
50.3% |
MMLU(五样本) |
68.0% |
TriviaQA(五样本) |
73.8% |
NaturalQuestions(五样本) |
31.2% |
多语言基准测试(MMLU)
语言 |
得分 |
法语 |
62.3% |
德语 |
62.7% |
西班牙语 |
64.6% |
意大利语 |
61.3% |
葡萄牙语 |
63.3% |
俄语 |
59.2% |
中文 |
59.0% |
日语 |
59.0% |
📦 安装指南
该模型可以在三个不同的框架中使用:
Mistral Inference
安装
建议使用mistralai/Mistral-Nemo-Base-2407
搭配mistral-inference使用。如需查看HF transformers的代码片段,请继续向下滚动。
pip install mistral_inference
下载
from huggingface_hub import snapshot_download
from pathlib import Path
mistral_models_path = Path.home().joinpath('mistral_models', 'Nemo-v0.1')
mistral_models_path.mkdir(parents=True, exist_ok=True)
snapshot_download(repo_id="mistralai/Mistral-Nemo-Base-2407", allow_patterns=["params.json", "consolidated.safetensors", "tekken.json"], local_dir=mistral_models_path)
示例
安装mistral_inference
后,你的环境中应该会有mistral-demo
命令。
mistral-demo $HOME/mistral_models/Nemo-v0.1
Transformers
⚠️ 重要提示
在发布新版本之前,你需要从源代码安装transformers:
pip install git+https://github.com/huggingface/transformers.git
如果你想使用Hugging Face的transformers
库来生成文本,可以参考以下示例:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "mistralai/Mistral-Nemo-Base-2407"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
inputs = tokenizer("Hello my name is", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
💡 使用建议
与之前的Mistral模型不同,Mistral Nemo需要使用较小的温度参数。我们建议使用0.3的温度值。
🔧 注意事项
Mistral-Nemo-Base-2407
是一个预训练的基础模型,因此没有任何内容审核机制。
开发团队
Albert Jiang、Alexandre Sablayrolles、Alexis Tacnet、Alok Kothari、Antoine Roux、Arthur Mensch、Audrey Herblin-Stoop、Augustin Garreau、Austin Birky、Bam4d、Baptiste Bout、Baudouin de Monicault、Blanche Savary、Carole Rambaud、Caroline Feldman、Devendra Singh Chaplot、Diego de las Casas、Eleonore Arcelin、Emma Bou Hanna、Etienne Metzger、Gaspard Blanchet、Gianna Lengyel、Guillaume Bour、Guillaume Lample、Harizo Rajaona、Henri Roussez、Hichem Sattouf、Ian Mack、Jean-Malo Delignon、Jessica Chudnovsky、Justus Murke、Kartik Khandelwal、Lawrence Stewart、Louis Martin、Louis Ternon、Lucile Saulnier、Lélio Renard Lavaud、Margaret Jennings、Marie Pellat、Marie Torelli、Marie-Anne Lachaux、Marjorie Janiewicz、Mickaël Seznec、Nicolas Schuhl、Niklas Muhs、Olivier de Garrigues、Patrick von Platen、Paul Jacob、Pauline Buche、Pavan Kumar Reddy、Perry Savas、Pierre Stock、Romain Sauvestre、Sagar Vaze、Sandeep Subramanian、Saurabh Garg、Sophia Yang、Szymon Antoniak、Teven Le Scao、Thibault Schueller、Thibaut Lavril、Thomas Wang、Théophile Gervet、Timothée Lacroix、Valera Nemychnikova、Wendy Shang、William El Sayed、William Marshall
📄 许可证
本项目采用Apache 2.0许可证。如果你想了解更多关于我们如何处理您的个人数据的信息,请阅读我们的隐私政策。