J

Jamba V0.1 9B

TechxGenusによって開発
Jambaは最先端のハイブリッドSSM-Transformerアーキテクチャの大規模言語モデルで、アテンション機構とMambaアーキテクチャの利点を組み合わせ、256Kのコンテキスト長をサポートし、80GB GPU単体での推論に適しています。
ダウンロード数 22
リリース時間 : 4/8/2024

モデル概要

Jambaは事前訓練された混合エキスパート(MoE)テキスト生成モデルで、活性化パラメータ120億、全エキスパート総パラメータ520億です。同サイズモデルの中で、ほとんどの一般的なベンチマークで最高性能モデルと同等以上の性能を発揮します。

モデル特徴

ハイブリッドアーキテクチャ
Transformerのアテンション機構とMambaアーキテクチャの利点を組み合わせ、モデルのスループットを向上させました。
長文コンテキスト対応
最大256Kのコンテキスト長をサポートし、長文書や複雑なタスクの処理に適しています。
効率的な推論
最適化された実装により、80GB GPU単体で最大140Kトークンを処理可能で、実際のデプロイに適しています。
混合エキスパート(MoE)
混合エキスパートアーキテクチャを採用し、活性化パラメータ120億、総パラメータ520億で、性能と効率のバランスを実現しました。

モデル能力

テキスト生成
長文コンテキスト処理
効率的な推論

使用事例

テキスト生成
コンテンツ作成
高品質な記事、ストーリーなどのテキストコンテンツを生成します。
コード生成
開発者がコードスニペットを生成したりプログラミングタスクを完了するのを支援します。
研究開発
モデルファインチューニング
PEFTライブラリを使用して特定タスクに適応できるベースモデルとして利用可能です。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase