I

Instella 3B Long Instruct

amdによって開発
Instella-LongはAMDによって開発された、128Kの文脈長をサポートする3Bパラメータのオープンソース言語モデルで、長文脈ベンチマークテストで優れた性能を発揮します。
ダウンロード数 240
リリース時間 : 5/28/2025

モデル概要

Instella-Longは長文脈処理能力を備えた完全オープンソースの言語モデルで、Instella-3B-InstructをベースにAMD Instinct™ MI300X GPU上で継続的にトレーニングされ、128Kの文脈長をサポートし、同類のオープンソースモデルよりも性能が優れています。

モデル特徴

長文脈サポート
128Kの文脈長をサポートし、長文脈タスクで優れた性能を発揮します。
完全オープンソース
モデルの重み、トレーニング設定、データセット、コードがすべてオープンソースであり、コミュニティの協力と革新を促進します。
高効率トレーニング技術
シーケンス並列、FlashAttention - 2、Torch Compile、FSDPなどの高効率トレーニング技術を採用し、AMDハードウェア上で高性能なトレーニングを実現します。
多段階トレーニング
継続的な事前学習、教師付き微調整、直接的な嗜好最適化の3つの段階を通じて、モデルの性能を最適化します。

モデル能力

長テキスト処理
質問応答生成
命令追従
テキスト生成

使用事例

情報検索と質問応答
長文書の質問応答
最大128Kトークンの文書を処理し、正確な質問応答ペアを生成します。
Helmetベンチマークテストで同類のオープンソースモデルよりも優れた性能を発揮します。
複数文書の情報統合
複数の文書の情報を統合し、包括的な回答を生成します。
RAGタスクで優れた性能を発揮します。
学術研究
学術論文の要約と質問応答
学術論文を処理し、要約を生成したり関連する質問に回答したりします。
ArXivデータセットで良好な性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase