Jetmoe-8b開源大語言模型 - 低成本達LLaMA2-7B性能，適用於低資源環境

首頁

Jetmoe 8b

由jetmoe開發

JetMoE-8B是一款高效開源大語言模型，以不足10萬美元的訓練成本達到LLaMA2-7B性能水平，專為低資源環境設計。

大型語言模型

Transformers

開源協議:Apache-2.0 #低成本訓練 #高效推理 #開源大模型

下載量 1,337

發布時間 : 3/25/2024

模型概述

JetMoE-8B採用混合專家架構(MoE)，在80億總參數中僅動態激活22億參數，顯著降低計算成本。模型在1.25T公開數據集上訓練，支持文本生成、代碼補全等任務。

模型特點

超低成本訓練

僅用8萬美元成本（96張H100訓練2周）即達到LLaMA2-7B性能，打破大模型必須高投入的行業認知

動態參數激活

每個token僅激活2/8專家，80億參數中實際計算僅22億，推理效率顯著提升

學術友好設計

完全基於公開數據集訓練，消費級GPU即可微調，降低研究門檻

模型能力

文本生成

代碼補全

對話交互

數學推理

常識問答

使用案例

教育科研

實驗室級模型研究

普通學術機構可用消費級設備進行模型微調與實驗

相比傳統大模型降低90%+研究成本

商業應用

低成本對話系統

部署高效推理的聊天機器人

MT-Bench評分6.681，超越LLaMA2-7B-chat

🚀 JetMoE：僅用10萬美元達成LLaMA2性能

JetMoE-8B是一款極具性價比的大語言模型。它以不到10萬美元的訓練成本，實現了超越擁有數十億訓練資源的Meta AI的LLaMA2-7B的性能。該模型完全開源，對學術界友好，且推理時僅需22億活躍參數，大幅降低了計算成本。

🚀 快速開始

若要加載模型，你需要安裝此包：

pip install -e .

然後，你可以使用以下代碼加載模型：

from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig, AutoModelForSequenceClassification
from jetmoe import JetMoEForCausalLM, JetMoEConfig, JetMoEForSequenceClassification

AutoConfig.register("jetmoe", JetMoEConfig)
AutoModelForCausalLM.register(JetMoEConfig, JetMoEForCausalLM)
AutoModelForSequenceClassification.register(JetMoEConfig, JetMoEForSequenceClassification)

tokenizer = AutoTokenizer.from_pretrained('jetmoe/jetmoe-8b')
model = AutoModelForCausalLM.from_pretrained('jetmoe/jetmoe-8b')

✨ 主要特性

低成本高性能：JetMoE-8B訓練成本不到10萬美元¹，卻超越了Meta AI的LLaMA2-7B，證明大語言模型訓練可以比人們之前認為的便宜得多。
開源友好：僅使用公共數據集進行訓練，代碼開源，無需專有資源，且可以在大多數實驗室能夠承擔的有限計算預算（如消費級GPU）下進行微調。
低計算成本：推理時僅具有22億活躍參數，大幅降低了計算成本。與具有類似推理計算量的模型（如Gemma-2B）相比，JetMoE-8B始終表現更優。

¹ 我們使用96×H100 GPU集群進行了2周的訓練，成本約為8萬美元。

📚 詳細文檔

基準測試

我們採用與Open LLM排行榜相同的評估方法。對於MBPP代碼基準測試，我們採用與LLaMA2和Deepseek-MoE論文相同的評估方法。結果如下：

模型	活躍參數	訓練令牌數	Open LLM排行榜平均得分	ARC	Hellaswag	MMLU	TruthfulQA	WinoGrande	GSM8k	MBPP	HumanEval
測試次數				25	10	5	0	5	5	3	0
指標				acc_norm	acc_norm	acc	mc2	acc	acc	Pass@1	Pass@1
LLaMA2-7B	7B	2T	51.0	53.1	78.6	46.9	38.8	74	14.5	20.8	12.8
LLaMA-13B	13B	1T	51.4	56.2	80.9	47.7	39.5	76.2	7.6	22.0	15.8
DeepseekMoE-16B	2.8B	2T	51.1	53.2	79.8	46.3	36.1	73.7	17.3	34.0	25.0
Gemma-2B	2B	2T	46.4	48.4	71.8	41.8	33.1	66.3	16.9	28.0	24.4
JetMoE-8B	2.2B	1.25T	53.0	48.7	80.5	49.2	41.7	70.2	27.8	34.2	14.6

模型	MT-Bench得分
GPT-4	9.014
GPT-3.5-turbo	7.995
Claude-v1	7.923
JetMoE-8B-chat	6.681
Llama-2-13b-chat	6.650
Vicuna-13b-v1.3	6.413
Wizardlm-13b	6.353
Llama-2-7b-chat	6.269

令人驚訝的是，儘管訓練成本和計算量較低，JetMoE-8B的表現甚至優於LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。與具有類似訓練和推理計算量的模型（如Gemma-2B）相比，JetMoE-8B表現更優。

模型詳情

JetMoE-8B有24個塊。每個塊有兩個MoE層：注意力頭混合層（MoA）和MLP專家混合層（MoE）。每個MoA和MoE層有8個專家，每個輸入令牌激活2個專家。它總共有80億個參數，其中22億為活躍參數。JetMoE-8B在來自公開可用數據集的1.25T令牌上進行訓練，學習率為5.0 x 10^-4，全局批量大小為4M令牌。