🚀 Mistral-Nemo-Base-2407模型卡片
Mistral-Nemo-Base-2407大語言模型(LLM)是一款由Mistral AI和NVIDIA聯合訓練的預訓練生成式文本模型,擁有120億參數。它在性能上顯著超越了現有的規模更小或相近的模型。
如果你想了解更多關於我們如何處理您的個人數據的信息,請閱讀我們的 隱私政策。
此版本添加了用於微調的ChatML令牌。
如需瞭解該模型的更多詳細信息,請參考我們的發佈 博客文章。
🚀 快速開始
本模型可使用三種不同的框架進行使用:
✨ 主要特性
- 開源許可:基於 Apache 2許可證 發佈
- 版本多樣:提供預訓練版本和指令微調版本
- 大上下文窗口:使用 128k上下文窗口 進行訓練
- 多語言與代碼數據:在大量的 多語言和代碼數據 上進行訓練
- 可替換性:可直接替代Mistral 7B模型
📚 詳細文檔
模型架構
Mistral Nemo是一個Transformer模型,採用了以下架構選擇:
- 層數:40
- 維度:5120
- 頭維度:128
- 隱藏維度:14436
- 激活函數:SwiGLU
- 頭的數量:32
- 鍵值頭的數量:8(GQA)
- 詞彙表大小:2**17 ≈ 128k
- 旋轉嵌入(theta = 1M)
評估指標
主要基準測試
基準測試 |
得分 |
HellaSwag(零樣本) |
83.5% |
Winogrande(零樣本) |
76.8% |
OpenBookQA(零樣本) |
60.6% |
CommonSenseQA(零樣本) |
70.4% |
TruthfulQA(零樣本) |
50.3% |
MMLU(五樣本) |
68.0% |
TriviaQA(五樣本) |
73.8% |
NaturalQuestions(五樣本) |
31.2% |
多語言基準測試(MMLU)
語言 |
得分 |
法語 |
62.3% |
德語 |
62.7% |
西班牙語 |
64.6% |
意大利語 |
61.3% |
葡萄牙語 |
63.3% |
俄語 |
59.2% |
中文 |
59.0% |
日語 |
59.0% |
💻 使用示例
Mistral Inference
安裝
建議使用 mistral-inference 來使用 mistralai/Mistral-Nemo-Base-2407
模型。如需查看HF transformers的代碼片段,請繼續向下滾動。
pip install mistral_inference
下載
from huggingface_hub import snapshot_download
from pathlib import Path
mistral_models_path = Path.home().joinpath('mistral_models', 'Nemo-v0.1')
mistral_models_path.mkdir(parents=True, exist_ok=True)
snapshot_download(repo_id="mistralai/Mistral-Nemo-Base-2407", allow_patterns=["params.json", "consolidated.safetensors", "tekken.json"], local_dir=mistral_models_path)
演示
安裝 mistral_inference
後,你的環境中應該會有一個 mistral-demo
的CLI命令。
mistral-demo $HOME/mistral_models/Nemo-v0.1
Transformers
⚠️ 重要提示
注意:在發佈新版本之前,你需要從源代碼安裝transformers:
pip install git+https://github.com/huggingface/transformers.git
如果你想使用Hugging Face的 transformers
庫來生成文本,可以這樣做:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "mistralai/Mistral-Nemo-Base-2407"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
inputs = tokenizer("Hello my name is", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
💡 使用建議
與之前的Mistral模型不同,Mistral Nemo需要較低的溫度參數。我們建議使用0.3的溫度值。
🔧 技術細節
Mistral-Nemo-Base-2407
是一個預訓練的基礎模型,因此沒有任何審核機制。
📄 許可證
本模型基於 Apache 2.0許可證 發佈。
團隊成員
Albert Jiang、Alexandre Sablayrolles、Alexis Tacnet、Alok Kothari、Antoine Roux、Arthur Mensch、Audrey Herblin - Stoop、Augustin Garreau、Austin Birky、Bam4d、Baptiste Bout、Baudouin de Monicault、Blanche Savary、Carole Rambaud、Caroline Feldman、Devendra Singh Chaplot、Diego de las Casas、Eleonore Arcelin、Emma Bou Hanna、Etienne Metzger、Gaspard Blanchet、Gianna Lengyel、Guillaume Bour、Guillaume Lample、Harizo Rajaona、Henri Roussez、Hichem Sattouf、Ian Mack、Jean - Malo Delignon、Jessica Chudnovsky、Justus Murke、Kartik Khandelwal、Lawrence Stewart、Louis Martin、Louis Ternon、Lucile Saulnier、Lélio Renard Lavaud、Margaret Jennings、Marie Pellat、Marie Torelli、Marie - Anne Lachaux、Marjorie Janiewicz、Mickaël Seznec、Nicolas Schuhl、Niklas Muhs、Olivier de Garrigues、Patrick von Platen、Paul Jacob、Pauline Buche、Pavan Kumar Reddy、Perry Savas、Pierre Stock、Romain Sauvestre、Sagar Vaze、Sandeep Subramanian、Saurabh Garg、Sophia Yang、Szymon Antoniak、Teven Le Scao、Thibault Schueller、Thibaut Lavril、Thomas Wang、Théophile Gervet、Timothée Lacroix、Valera Nemychnikova、Wendy Shang、William El Sayed、William Marshall