M

Mistrallite

由AWS開發
MistralLite是基於Mistral-7B-v0.1微調的語言模型,增強了處理長上下文(最高32K tokens)的能力,適用於長上下文檢索、主題歸納、問答等場景。
下載量 61.78k
發布時間 : 10/16/2023

模型概述

MistralLite是一個經過優化的語言模型,通過改進的旋轉位置編碼和滑動窗口技術,顯著提升了長上下文處理能力,適合部署在資源受限的高性能需求場景。

模型特點

長上下文處理能力
支持最高32K tokens的上下文長度,顯著提升長文本任務表現。
改進的旋轉位置編碼
採用rope_theta = 1000000的參數設置,優化長序列處理。
大滑動窗口
滑動窗口大小提升至16384,增強長距離依賴捕捉能力。
高效部署
可在單臺AWS g5.2x實例上部署,適合資源受限場景。

模型能力

長上下文檢索
主題歸納
問答系統
文本生成

使用案例

信息檢索
長文檔主題檢索
在13.7K tokens長度下保持98%準確率的主題檢索能力。
顯著優於原模型(8.3K tokens時降至2%)
行級信息定位
在長文檔中精確定位特定行信息。
12.6K tokens時準確率達60%(原模型30%)
問答系統
長文本問答
處理包含複雜上下文的問答任務。
測試集準確率從44.3%提升至64.4%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase