J

Jamba V0.1 9B

Developed by TechxGenus
Jamba是最先进的混合SSM-Transformer架构大语言模型,结合了注意力机制和Mamba架构的优势,支持256K上下文长度,适合在单张80GB GPU上进行推理。
Downloads 22
Release Time : 4/8/2024

Model Overview

Jamba是一个预训练的混合专家(MoE)生成文本模型,激活参数120亿,所有专家总参数520亿。该模型在同类尺寸模型中,大多数常见基准测试表现优于或持平最佳模型。

Model Features

混合架构
结合了Transformer的注意力机制和Mamba架构的优势,提升了模型吞吐量。
长上下文支持
支持高达256K的上下文长度,适合处理长文档和复杂任务。
高效推理
优化后的实现可在单张80GB GPU上处理高达140K令牌,适合实际部署。
混合专家(MoE)
采用混合专家架构,激活参数120亿,总参数520亿,平衡了性能和效率。

Model Capabilities

文本生成
长上下文处理
高效推理

Use Cases

文本生成
内容创作
生成高质量的文章、故事或其他文本内容。
代码生成
辅助开发人员生成代码片段或完成编程任务。
研究与开发
模型微调
作为基础模型,可通过PEFT库进行微调,适应特定任务。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase