I

Instella 3B Long Instruct

由amd開發
Instella-Long是由AMD開發的支持128K上下文長度的3B參數開源語言模型,在長上下文基準測試中表現優異。
下載量 240
發布時間 : 5/28/2025

模型概述

Instella-Long是一款具備長上下文處理能力的完全開源語言模型,基於Instella-3B-Instruct在AMD Instinct™ MI300X GPU上進行持續訓練,支持128K上下文長度,性能優於同類開源模型。

模型特點

長上下文支持
支持128K的上下文長度,在長上下文任務中表現優異。
完全開源
模型權重、訓練配置、數據集和代碼全部開源,便於社區協作和創新。
高效訓練技術
採用序列並行、FlashAttention-2、Torch Compile和FSDP等高效訓練技術,在AMD硬件上實現高性能訓練。
多階段訓練
通過持續預訓練、有監督微調和直接偏好優化三個階段,優化模型性能。

模型能力

長文本處理
問答生成
指令跟隨
文本生成

使用案例

信息檢索與問答
長文檔問答
處理長達128K標記的文檔並生成準確的問答對。
在Helmet基準測試中表現優於同類開源模型。
多文檔信息整合
整合多個文檔的信息,生成綜合性的回答。
在RAG任務中表現優異。
學術研究
學術論文摘要與問答
處理學術論文並生成摘要或回答相關問題。
在ArXiv數據集上表現良好。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase