J

Jetmoe 8b

由jetmoe開發
JetMoE-8B是一款高效開源大語言模型,以不足10萬美元的訓練成本達到LLaMA2-7B性能水平,專為低資源環境設計。
下載量 1,337
發布時間 : 3/25/2024

模型概述

JetMoE-8B採用混合專家架構(MoE),在80億總參數中僅動態激活22億參數,顯著降低計算成本。模型在1.25T公開數據集上訓練,支持文本生成、代碼補全等任務。

模型特點

超低成本訓練
僅用8萬美元成本(96張H100訓練2周)即達到LLaMA2-7B性能,打破大模型必須高投入的行業認知
動態參數激活
每個token僅激活2/8專家,80億參數中實際計算僅22億,推理效率顯著提升
學術友好設計
完全基於公開數據集訓練,消費級GPU即可微調,降低研究門檻

模型能力

文本生成
代碼補全
對話交互
數學推理
常識問答

使用案例

教育科研
實驗室級模型研究
普通學術機構可用消費級設備進行模型微調與實驗
相比傳統大模型降低90%+研究成本
商業應用
低成本對話系統
部署高效推理的聊天機器人
MT-Bench評分6.681,超越LLaMA2-7B-chat
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase