M

Mistrallite

由 AWS 开发
MistralLite是基于Mistral-7B-v0.1微调的语言模型,增强了处理长上下文(最高32K tokens)的能力,适用于长上下文检索、主题归纳、问答等场景。
下载量 61.78k
发布时间 : 10/16/2023

模型简介

MistralLite是一个经过优化的语言模型,通过改进的旋转位置编码和滑动窗口技术,显著提升了长上下文处理能力,适合部署在资源受限的高性能需求场景。

模型特点

长上下文处理能力
支持最高32K tokens的上下文长度,显著提升长文本任务表现。
改进的旋转位置编码
采用rope_theta = 1000000的参数设置,优化长序列处理。
大滑动窗口
滑动窗口大小提升至16384,增强长距离依赖捕捉能力。
高效部署
可在单台AWS g5.2x实例上部署,适合资源受限场景。

模型能力

长上下文检索
主题归纳
问答系统
文本生成

使用案例

信息检索
长文档主题检索
在13.7K tokens长度下保持98%准确率的主题检索能力。
显著优于原模型(8.3K tokens时降至2%)
行级信息定位
在长文档中精确定位特定行信息。
12.6K tokens时准确率达60%(原模型30%)
问答系统
长文本问答
处理包含复杂上下文的问答任务。
测试集准确率从44.3%提升至64.4%
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase