🚀 Minerva-1B-base-v1.0模型卡片
Minerva是由Sapienza NLP與未來人工智能研究(FAIR)和CINECA合作開發的首個完全基於意大利語預訓練的大語言模型(LLMs)系列。值得注意的是,Minerva模型是真正開放(數據和模型)的意大利語 - 英語大語言模型,大約一半的預訓練數據包含意大利語文本。
🚀 快速開始
使用Hugging Face Transformers調用Minerva模型
import transformers
import torch
model_id = "sapienzanlp/Minerva-1B-base-v1.0"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
input_text = "La capitale dell'Italia è"
output = pipeline(
input_text,
max_new_tokens=128,
)
✨ 主要特性
- Minerva是首個完全基於意大利語從頭開始預訓練的大語言模型系列。
- 該模型是真正開放(數據和模型)的意大利語 - 英語大語言模型,約一半預訓練數據包含意大利語文本。
📚 詳細文檔
模型描述
這是Minerva-1B-base-v1.0的模型卡片,該模型擁有10億參數,在2000億個標記(1000億意大利語標記和1000億英語標記)上進行訓練。
該模型是Minerva大語言模型系列的一部分:
🚨⚠️🚨 偏差、風險和侷限性 🚨⚠️🚨
此部分識別可預見的危害和誤解。
這是一個基礎模型,未經過對齊處理。模型可能存在以下問題:
- 過度代表某些觀點,而忽視其他觀點。
- 包含刻板印象。
- 包含個人信息。
- 生成以下內容:
- 仇恨性、辱罵性或暴力性語言。
- 歧視性或偏見性語言。
- 可能不適用於所有場景的內容,包括色情內容。
- 產生錯誤,包括將不正確的信息當作事實輸出。
- 生成無關或重複的輸出。
我們意識到當前預訓練大語言模型存在偏差問題。更具體地說,作為(意大利語和英語)語言的概率模型,它們反映並放大了訓練數據中的偏差。有關此問題的更多信息,請參考我們的調查:
模型架構
Minerva-1B-base-v1.0是基於Mistral架構的Transformer模型,通過修改層數、頭數和隱藏狀態維度,使其達到10億參數。請查看配置文件以詳細瞭解我們為該模型選擇的超參數。
Minerva大語言模型系列的組成如下:
模型名稱 |
標記數 |
層數 |
隱藏層大小 |
注意力頭數 |
KV頭數 |
滑動窗口 |
最大上下文長度 |
Minerva-350M-base-v1.0 |
700億(350億意大利語 + 350億英語) |
16 |
1152 |
16 |
4 |
2048 |
16384 |
Minerva-1B-base-v1.0 |
2000億(1000億意大利語 + 1000億英語) |
16 |
2048 |
16 |
4 |
2048 |
16384 |
Minerva-3B-base-v1.0 |
6600億(3300億意大利語 + 3300億英語) |
32 |
2560 |
32 |
8 |
2048 |
16384 |
模型訓練
Minerva-1B-base-v1.0使用來自MosaicML的llm-foundry 0.6.0進行訓練。使用的超參數如下:
模型名稱 |
優化器 |
學習率 |
貝塔係數 |
誤差項 |
權重衰減 |
調度器 |
熱身步數 |
批量大小(標記) |
總步數 |
Minerva-350M-base-v1.0 |
解耦AdamW |
2e-4 |
(0.9, 0.95) |
1e-8 |
0.0 |
餘弦調度器 |
2% |
400萬 |
16,690 |
Minerva-1B-base-v1.0 |
解耦AdamW |
2e-4 |
(0.9, 0.95) |
1e-8 |
0.0 |
餘弦調度器 |
2% |
400萬 |
47,684 |
Minerva-3B-base-v1.0 |
解耦AdamW |
2e-4 |
(0.9, 0.95) |
1e-8 |
0.0 |
餘弦調度器 |
2% |
400萬 |
157,357 |
模型評估
我們使用LM-Evaluation-Harness庫對模型進行評估,該庫是一個全面的框架,用於在廣泛的評估任務中測試生成式語言模型。
所有報告的基準數據均來自LM-Evaluation-Harness套件。
意大利語數據
英語數據
訓練數據
Minerva-1B-base-v1.0在從CulturaX採樣的1000億意大利語標記和1000億英語標記上進行訓練。數據選自以下來源:
- OSCAR-2201
- OSCAR-2301
- mC4
我們從CulturaX的選定來源中提取了意大利語(1150億標記)和英語(2100億標記)文檔的一些統計信息:
每個領域標記數量的比例(意大利語)

每個領域標記數量的比例(英語)

分詞器豐富度
分詞器豐富度衡量每個分詞單詞產生的平均標記數量。在特定語言中顯示高豐富度值的分詞器通常表明它會對該語言的單詞進行廣泛分割。分詞器豐富度與模型在特定語言上的推理速度密切相關,因為較高的值意味著需要生成更長的標記序列,從而降低推理速度。
基於Cultura X(CX)數據樣本和維基百科(Wp)計算的豐富度:
模型 |
詞彙表大小 |
豐富度(意大利語,CX) |
豐富度(英語,CX) |
豐富度(意大利語,Wp) |
豐富度(英語,Wp) |
Mistral-7B-v0.1 |
32000 |
1.87 |
1.32 |
2.05 |
1.57 |
gemma-7b |
256000 |
1.42 |
1.18 |
1.56 |
1.34 |
Minerva-1B-base-v1.0 |
32768 |
1.39 |
1.32 |
1.66 |
1.59 |
注意事項
Minerva-350M-base-v1.0是一個預訓練的基礎模型,因此沒有審核機制。
Sapienza NLP團隊
- Riccardo Orlando:數據預處理、模型訓練
- Pere-Lluis Huguet Cabot:數據預處理、詞彙表、評估
- Luca Moroni:數據整理、數據分析、下游任務、評估
- Simone Conia:數據整理、評估、項目監督
- Edoardo Barba:數據預處理、下游任務、項目監督
- Roberto Navigli:項目負責人和協調人
特別感謝以下人員的支持
- Giuseppe Fiameni,英偉達
- Sergio Orlandini,CINECA
致謝
這項工作由PNRR MUR項目PE0000013 - FAIR資助。我們感謝CINECA在ISCRA計劃下授予的“IscB_medit”獎項,感謝其提供高性能計算資源和支持。
📄 許可證
本模型採用Apache-2.0許可證。