LongAlpaca-7b-32k-chinese开源中文长文本对话模型

首页

Longalpaca 7b 32k Chinese

由 yuyijiong 开发

基于Llama2的中文长文本对话模型，支持32k上下文长度，适用于长文本问答、总结等任务

大型语言模型

Transformers

支持多种语言#32k长文本处理 #多文档问答 #论文总结

下载量 32

发布时间 : 10/25/2023

模型简介

采用LongLora训练技术对llama2-chat模型进行位置插值后微调，具备优秀的长文本处理能力，支持万字级多文档检索和论文总结

模型特点

超长上下文处理

通过位置插值技术将上下文窗口扩展至32k tokens，可处理万字级长文本

中文优化

使用中文长指令数据集微调，特别优化中文长文本处理能力

多文档问答

支持同时处理多个参考文档并生成综合回答

流式生成支持

兼容streaming-LLM，可生成超长文本内容

模型能力

长文本问答

多文档信息整合

学术论文总结

中文对话生成

长文本指令理解

使用案例

学术研究

论文总结

对长篇学术论文进行要点总结

在vcsum数据集上rouge-L得分0.15166

信息检索

多文档问答

从多个相关文档中提取信息回答复杂问题

在dureader数据集上rouge-L得分0.18369

🚀 中文长文本Llama模型

该模型基于特定训练技术，在长文本处理上表现出色，可完成多文档检索等任务，但在复杂任务输出质量和指令微调数据集多样性上有待提升。

🚀 快速开始

本模型为中文长文本Llama模型，V2版本已推出，相比V1版本有明显提升，回答质量更高。模型使用LongLora训练技术，通过对llama2 - chat进行位置插值后，再使用少量长文本数据进行指令微调，展现出优秀的长文本对话能力。

✨ 主要特性

长文本处理能力强：可完成上万字的多文档检索、论文总结等任务，短对话能力几乎没有下降。
支持streaming - LLM：与英文版LongAlpaca一样，支持该技术，从而可以生成更长的文本。
训练数据有特色：使用的中文数据集与LongAlpaca较为类似，但增加了多文档问答的数据。

📦 安装指南

文档未提及安装步骤，此部分暂略。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

model_path="yuyijiong/LongAlpaca-7b-32k-chinese"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

# use auto mode, automatically select precision based on the device.
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", load_in_8bit=True).eval()


question="中国的首都是什么？"
input_text = "<s>Human: " + question + "\n</s><s>Assistant: "
input_ids = tokenizer(input_text, return_tensors='pt').input_ids.to(model.device)

with torch.no_grad():

    with torch.autocast('cuda'):
        output = model.generate(input_ids=input_ids,
                                max_new_tokens=max_new_tokens,
                                do_sample=True,
                                temperature=0.85,
                                top_k=None,
                                top_p=0.9,
                                use_cache=True,
                                **kwargs)

reply = tokenizer.decode(output[0], skip_special_tokens=False)
reply_return=reply.split('Assistant:')[-1].replace('</s>', '')

print('模型回答：', reply_return)

📚 详细文档

训练方法

LongAlpaca训练：使用LongLora训练技术，对llama2 - chat进行位置插值后，用少量长文本数据进行指令微调。
本模型训练：由[Atom - 7b - chat](https://huggingface.co/FlagAlpha/Atom - 7B - Chat)，通过线性位置插值，将文本长度从4k扩展到32k，然后经过lora微调得到。
存在问题：由于指令微调数据的任务类型不多，在面对复杂任务时，输出结果质量不能保证；目前[中文指令微调数据集](https://huggingface.co/datasets/yuyijiong/Long - Instruction - Chinese)多样性不够，模型有过拟合问题，将在未来版本改善。

评估和推理

支持streaming - LLM：与英文版LongAlpaca一样，支持该技术，可生成更长文本，[示例代码](https://github.com/dvlab - research/LongLoRA/blob/main/run_streaming_llama_longalpaca.py)。
指令敏感度：模型对长文本尾部的指令更加敏感，尽量把问题放在参考文档后面。
评测结果：在LongBench中文任务评测中，模型在问答、总结等自由回答任务上表现较好，在分类、多项选择等固定选项任务上表现不好，可能是因为微调数据集不包含分类任务。具体得分如下： | 数据集 | 任务类型 | 评测指标 | 得分 | | ---- | ---- |---- |---- | | dureader | 多文档QA |rouge - L |0.18369 | | multifield_qa | 单文档QA |rouge - L |0.40816 | | vcsum | 总结 |rouge - L |0.15166 | | lsht | 文本分类 |Accuracy |0.19680 | | passage_retrieval | 文本检索 |Accuracy |0.06000 |

问答实例

多文档QA

用户输入（34726字），问题为“秦银科是哪个单位的领导人？”，模型输出“综上所述，秦银科是湖北省潜江市熊口农场党委委员，并曾任熊口农场主要领导职务。”

图书、论文总结

用户输入7748字的图书节选，要求概括内容，模型输出“燕青、戴宗为了救宋江等人，代替宋江等人去了东京，在东京见到了高太尉，打算他许奏朝廷招安，以保众人安全。但燕青也为偷偷带入城送消息，高太尉怀疑他们有奸计。燕青遇见高师师的女儿李师师，遇上了好友李行首，说宋江等人招安的事，李师师愉悦不已。后来燕青又遇上了李行首的好友郑大官，要燕青送给自己的舅舅，燕青知道对方动机，计让李行首与郑大官拿着礼物，去对管着梁山泊的人。最终，李师师在李行首的帮忙下，祝燕青与戴宗顺利回到梁山泊。”