Z

Zamba 7B V1 Phase1

由Zyphra開發
Zamba-7B-v1-phase1是狀態空間模型Mamba與Transformer的混合架構,以Mamba為主幹網絡,每6個模塊共享一個Transformer層,通過下一詞預測進行訓練。
下載量 22
發布時間 : 5/22/2024

模型概述

該模型是純預訓練檢查點,主要用於研究退火處理效果,採用Mistral v0.1的分詞器,在開放網絡數據集提供的1萬億文本和代碼標記上進行了預訓練。

模型特點

混合架構設計
結合Mamba主幹網絡與共享權重Transformer層,優化信息跨層保持能力
高效推理
得益於SSM架構,在推理效率和生成內存開銷上大幅領先同類7B/8B模型
樣本效率高
相比同等規模開源模型,使用更少訓練標記量達到優異性能

模型能力

文本生成
代碼補全
知識問答

使用案例

研究工具
架構對比研究
作為純預訓練檢查點用於研究退火處理效果
提供基準對比數據
文本生成
開放域問答
回答歷史、科技等領域問題
生成連貫的答案文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase