I

Instella 3B Long Instruct

由 amd 开发
Instella-Long是由AMD开发的支持128K上下文长度的3B参数开源语言模型,在长上下文基准测试中表现优异。
下载量 240
发布时间 : 5/28/2025

模型简介

Instella-Long是一款具备长上下文处理能力的完全开源语言模型,基于Instella-3B-Instruct在AMD Instinct™ MI300X GPU上进行持续训练,支持128K上下文长度,性能优于同类开源模型。

模型特点

长上下文支持
支持128K的上下文长度,在长上下文任务中表现优异。
完全开源
模型权重、训练配置、数据集和代码全部开源,便于社区协作和创新。
高效训练技术
采用序列并行、FlashAttention-2、Torch Compile和FSDP等高效训练技术,在AMD硬件上实现高性能训练。
多阶段训练
通过持续预训练、有监督微调和直接偏好优化三个阶段,优化模型性能。

模型能力

长文本处理
问答生成
指令跟随
文本生成

使用案例

信息检索与问答
长文档问答
处理长达128K标记的文档并生成准确的问答对。
在Helmet基准测试中表现优于同类开源模型。
多文档信息整合
整合多个文档的信息,生成综合性的回答。
在RAG任务中表现优异。
学术研究
学术论文摘要与问答
处理学术论文并生成摘要或回答相关问题。
在ArXiv数据集上表现良好。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase