Minerva-1B-base-v1.0開源意英雙語大語言模型 - 免費部署可支持雙語交流

首頁

Minerva 1B Base V1.0

由sapienzanlp開發

Minerva-1B-base-v1.0是由Sapienza NLP與FAIR及CINECA合作開發的10億參數意英雙語大語言模型，基於2000億token（各1000億意/英）訓練

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #意英雙語生成 #預訓練基礎模型 #高語境窗口

下載量 551

發布時間 : 4/19/2024

模型概述

首個完全基於意大利語預訓練的大語言模型家族成員，真正開放的意英雙語基礎模型，未經過對齊處理

模型特點

雙語平衡訓練

採用1000億意大利語token和1000億英語token的平衡訓練數據

高效分詞器

意大利語分詞效率1.39（CulturaX測試），優於同類模型

長上下文支持

支持最大16384 tokens的上下文長度

模型能力

意大利語文本生成

英語文本生成

多任務處理

使用案例

教育

意大利語學習輔助

生成意大利語學習材料和練習題

內容創作

雙語內容生成

自動生成意英雙語的文章或營銷內容

🚀 Minerva-1B-base-v1.0模型卡片

Minerva是由Sapienza NLP與未來人工智能研究（FAIR）和CINECA合作開發的首個完全基於意大利語預訓練的大語言模型（LLMs）系列。值得注意的是，Minerva模型是真正開放（數據和模型）的意大利語 - 英語大語言模型，大約一半的預訓練數據包含意大利語文本。

Minerva大語言模型 - 官網

🚀 快速開始

使用Hugging Face Transformers調用Minerva模型

import transformers
import torch

model_id = "sapienzanlp/Minerva-1B-base-v1.0"

# 初始化管道。
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

# 模型輸入文本。
input_text = "La capitale dell'Italia è"

# 計算輸出。
output = pipeline(
  input_text,
  max_new_tokens=128,
)

# 輸出:
# [{'generated_text': "La capitale dell'Italia è la città di Roma, che si trova a [...]"}]

✨ 主要特性

Minerva是首個完全基於意大利語從頭開始預訓練的大語言模型系列。
該模型是真正開放（數據和模型）的意大利語 - 英語大語言模型，約一半預訓練數據包含意大利語文本。

📚 詳細文檔

模型描述

這是Minerva-1B-base-v1.0的模型卡片，該模型擁有10億參數，在2000億個標記（1000億意大利語標記和1000億英語標記）上進行訓練。

該模型是Minerva大語言模型系列的一部分：

🚨⚠️🚨 偏差、風險和侷限性 🚨⚠️🚨

此部分識別可預見的危害和誤解。

這是一個基礎模型，未經過對齊處理。模型可能存在以下問題：

過度代表某些觀點，而忽視其他觀點。
包含刻板印象。
包含個人信息。
生成以下內容：
- 仇恨性、辱罵性或暴力性語言。
- 歧視性或偏見性語言。
- 可能不適用於所有場景的內容，包括色情內容。
產生錯誤，包括將不正確的信息當作事實輸出。
生成無關或重複的輸出。

我們意識到當前預訓練大語言模型存在偏差問題。更具體地說，作為（意大利語和英語）語言的概率模型，它們反映並放大了訓練數據中的偏差。有關此問題的更多信息，請參考我們的調查：

大語言模型中的偏差：起源、清單和討論

模型架構

Minerva-1B-base-v1.0是基於Mistral架構的Transformer模型，通過修改層數、頭數和隱藏狀態維度，使其達到10億參數。請查看配置文件以詳細瞭解我們為該模型選擇的超參數。

Minerva大語言模型系列的組成如下：

模型名稱	標記數	層數	隱藏層大小	注意力頭數	KV頭數	滑動窗口	最大上下文長度
Minerva-350M-base-v1.0	700億（350億意大利語 + 350億英語）	16	1152	16	4	2048	16384
Minerva-1B-base-v1.0	2000億（1000億意大利語 + 1000億英語）	16	2048	16	4	2048	16384
Minerva-3B-base-v1.0	6600億（3300億意大利語 + 3300億英語）	32	2560	32	8	2048	16384

模型訓練

Minerva-1B-base-v1.0使用來自MosaicML的llm-foundry 0.6.0進行訓練。使用的超參數如下：

模型名稱	優化器	學習率	貝塔係數	誤差項	調度器	熱身步數	批量大小（標記）	總步數
Minerva-350M-base-v1.0	解耦AdamW	2e-4	(0.9, 0.95)	1e-8	餘弦調度器	2%	400萬	16,690
Minerva-1B-base-v1.0	解耦AdamW	2e-4	(0.9, 0.95)	1e-8	餘弦調度器	2%	400萬	47,684
Minerva-3B-base-v1.0	解耦AdamW	2e-4	(0.9, 0.95)	1e-8	餘弦調度器	2%	400萬	157,357

模型評估

我們使用LM-Evaluation-Harness庫對模型進行評估，該庫是一個全面的框架，用於在廣泛的評估任務中測試生成式語言模型。

所有報告的基準數據均來自LM-Evaluation-Harness套件。

意大利語數據

任務	準確率
xcopa（零樣本）	0.602
Hellaswag（五樣本）	0.3847
Belebele（五樣本）	0.25
TruthfulQA MC 1（零樣本）	0.2375
TruthfulQA MC 2（零樣本）	0.3996
M MMLU（五樣本）	0.2546
arc challenge（五樣本）	0.2549

英語數據

任務	準確率
Hellaswag（五樣本）	0.43
Belebele（五樣本）	0.26
TruthfulQA MC 1（零樣本）	0.21
TruthfulQA MC 2（零樣本）	0.38
M MMLU（五樣本）	0.26
arc challenge（五樣本）	0.26
arc easy（五樣本）	0.4966
piqa（五樣本）	0.6975
sciq（五樣本）	0.830