L

Longalpaca 70B

Developed by Yukang
LongLoRA是一種高效微調長上下文大語言模型的技術,通過移位短注意力機制實現長上下文處理,支持8k到100k的上下文長度。
Downloads 1,293
Release Time : 10/9/2023

Model Overview

LongLoRA提出了一種高效的微調方案,用於擴展大語言模型的上下文處理能力,支持從7B到70B不同規模的模型。

Model Features

移位短注意力機制
創新的注意力機制設計,兼容Flash-Attention技術,推理階段無需使用
長上下文支持
支持從8k到100k的上下文長度,覆蓋多種應用場景
全系列模型
開源7B至70B全系列模型,滿足不同計算資源需求
專用數據集
構建長上下文指令數據集LongAlpaca-12k,提升模型指令跟隨能力

Model Capabilities

長文本理解
長文本生成
指令跟隨
問答系統

Use Cases

文檔處理
長文檔摘要
處理長達數萬token的文檔並生成摘要
可有效保留長文檔中的關鍵信息
技術文檔分析
閱讀和理解複雜的技術文檔
能夠準確回答關於文檔內容的細節問題
學術研究
論文閱讀與問答
閱讀完整學術論文並回答相關問題
能夠理解論文中的複雜概念和論證過程
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase