L

Longalpaca 70B

由Yukang開發
LongLoRA是一種高效微調長上下文大語言模型的技術,通過移位短注意力機制實現長上下文處理,支持8k到100k的上下文長度。
下載量 1,293
發布時間 : 10/9/2023

模型概述

LongLoRA提出了一種高效的微調方案,用於擴展大語言模型的上下文處理能力,支持從7B到70B不同規模的模型。

模型特點

移位短注意力機制
創新的注意力機制設計,兼容Flash-Attention技術,推理階段無需使用
長上下文支持
支持從8k到100k的上下文長度,覆蓋多種應用場景
全系列模型
開源7B至70B全系列模型,滿足不同計算資源需求
專用數據集
構建長上下文指令數據集LongAlpaca-12k,提升模型指令跟隨能力

模型能力

長文本理解
長文本生成
指令跟隨
問答系統

使用案例

文檔處理
長文檔摘要
處理長達數萬token的文檔並生成摘要
可有效保留長文檔中的關鍵信息
技術文檔分析
閱讀和理解複雜的技術文檔
能夠準確回答關於文檔內容的細節問題
學術研究
論文閱讀與問答
閱讀完整學術論文並回答相關問題
能夠理解論文中的複雜概念和論證過程
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase