Minerva-7B-instruct-v1.0開源雙語大模型 - 支持意英指令跟隨與對話任務

Home

Minerva 7B Instruct V1.0

Developed by sapienzanlp

Minerva是由Sapienza NLP開發的意大利語-英語雙語大語言模型，基於Mistral架構，擁有70億參數，支持指令跟隨和對話任務。

大型語言模型

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #意大利語優化 #雙語指令微調 #安全對齊

Downloads 4,331

Release Time : 12/2/2024

Model Overview

首個完全基於意大利語預訓練的大語言模型家族成員，經過SFT和DPO優化，支持意大利語和英語的文本生成任務。

Model Features

雙語支持

專門針對意大利語和英語優化，意大利語訓練數據佔比近50%

指令優化

經過SFT(監督微調)和DPO(直接偏好優化)兩階段訓練，優化指令跟隨能力

高效分詞

意大利語分詞效率達1.32（CX樣本），優於同類模型

安全防護

包含人工篩選的安全數據和針對性防護措施

Model Capabilities

多輪對話

指令理解

知識問答

文本生成

Use Cases

教育

語言學習助手

幫助學習者練習意大利語對話和語法

客服

雙語客服機器人

處理意大利語和英語的客戶諮詢

🚀 Minerva-7B-instruct-v1.0模型介紹

Minerva是首個完全基於意大利語從頭開始預訓練的大語言模型（LLM）家族。它由Sapienza NLP在未來人工智能研究（FAIR）項目框架下開發，與CINECA合作，並得到了Babelscape和CREATIVE PRIN項目的額外支持。值得注意的是，Minerva模型是真正開放（數據和模型）的意大利語 - 英語大語言模型，大約一半的預訓練數據包含意大利語文本。

🚀 快速開始

如何使用Hugging Face Transformers調用Minerva

import transformers
import torch

model_id = "sapienzanlp/Minerva-7B-instruct-v1.0"

# 初始化管道。
pipeline = transformers.pipeline(
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

# 模型的輸入文本。
input_conv = [{"role": "user", "content": "Qual √® la capitale dell'Italia?"}]

# 計算輸出。
output = pipeline(
  input_conv,
  max_new_tokens=128,
)

output

[{'generated_text': [{'role': 'user', 'content': "Qual √® la capitale dell'Italia?"}, {'role': 'assistant', 'content': "La capitale dell'Italia √® Roma."}]}]

✨ 主要特性

Minerva-7B-instruct-v1.0是一個擁有70億參數的模型，在近2.5萬億個標記（1.14萬億個意大利語標記、1.14萬億個英語標記和2000億個代碼標記）上進行了訓練。該模型屬於Minerva大語言模型家族，該家族還包括：

🔧 技術細節

模型架構

Minerva-7B-base-v1.0是一個基於Mistral架構的Transformer模型。有關該模型超參數的詳細分解，請查看配置文件。

Minerva大語言模型家族的構成如下：

模型名稱	標記數	層數	隱藏層大小	注意力頭數	KV頭數	滑動窗口	最大上下文長度
Minerva-350M-base-v1.0	700億 (350億意大利語 + 350億英語)	16	1152	16	4	2048	16384
Minerva-1B-base-v1.0	2000億 (1000億意大利語 + 1000億英語)	16	2048	16	4	2048	16384
Minerva-3B-base-v1.0	6600億 (3300億意大利語 + 3300億英語)	32	2560	32	8	2048	16384
Minerva-7B-base-v1.0	2.48萬億 (1.14萬億意大利語 + 1.14萬億英語 + 2000億代碼)	32	4096	32	8	無	4096

模型訓練

Minerva-7B-base-v1.0使用來自MosaicML的llm-foundry 0.8.0進行訓練。所使用的超參數如下：

模型名稱	優化器	學習率	貝塔係數	誤差	權重衰減	調度器	預熱步數	批量大小（標記）	總步數
Minerva-350M-base-v1.0	解耦AdamW	2e-4	(0.9, 0.95)	1e-8	0.0	餘弦	2%	400萬	16690
Minerva-1B-base-v1.0	解耦AdamW	2e-4	(0.9, 0.95)	1e-8	0.0	餘弦	2%	400萬	47684
Minerva-3B-base-v1.0	解耦AdamW	2e-4	(0.9, 0.95)	1e-8	0.0	餘弦	2%	400萬	157357
Minerva-7B-base-v1.0	AdamW	3e-4	(0.9, 0.95)	1e-5	0.1	餘弦	2000	400萬	591558

SFT訓練

SFT模型使用Llama-Factory進行訓練。數據混合情況如下：

數據集	來源	代碼數據量	英語數據量	意大利語數據量
Glaive-code-assistant	鏈接	100000	0	0
Alpaca-python	鏈接	20000	0	0
Alpaca-cleaned	鏈接	0	50000	0
Databricks-dolly-15k	鏈接	0	15011	0
No-robots	鏈接	0	9499	0
OASST2	鏈接	0	29000	528
WizardLM	鏈接	0	29810	0
LIMA	鏈接	0	1000	0
OPENORCA	鏈接	0	30000	0
Ultrachat	鏈接	0	50000	0
MagpieMT	鏈接	0	30000	0
Tulu-V2-Science	鏈接	0	7000	0
Aya_datasets	鏈接	0	3944	738
Tower-blocks_it	鏈接	0	0	7276
Bactrian-X	鏈接	0	0	67000
Magpie (我們翻譯的)	鏈接	0	0	59070
Everyday-conversations (我們翻譯的)	鏈接	0	0	2260
alpaca-gpt4-it	鏈接	0	0	15000
capybara-claude-15k-ita	鏈接	0	0	15000
Wildchat	鏈接	0	0	5000
GPT4_INST	鏈接	0	0	10000
Italian Safety Instructions	-	0	0	21426
Italian Conversations	-	0	0	4843

更多詳細信息，請查看我們的技術頁面。

在線DPO訓練

本模型卡是關於我們的DPO模型的。直接偏好優化（DPO）是一種基於用戶反饋來優化模型的方法，類似於基於人類反饋的強化學習（RLHF），但無需強化學習的複雜性。在線DPO通過在訓練過程中實現即時自適應進一步改進了這一點，利用新的反饋不斷優化模型。在訓練此模型時，我們使用了Hugging Face TRL庫和在線DPO，並使用Skywork/Skywork-Reward-Llama-3.1-8B-v0.2模型作為評判器來評估和指導優化。在此階段，我們僅使用了來自HuggingFaceH4/ultrafeedback_binarized（英語）、efederici/evol-dpo-ita（意大利語）和Babelscape/ALERT（翻譯成意大利語）的提示，並添加了額外的手動整理數據以確保安全性。

更多詳細信息，請查看我們的技術頁面。