🚀 中文长文本Llama模型
该模型基于特定训练技术,在长文本处理上表现出色,可完成多文档检索等任务,但在复杂任务输出质量和指令微调数据集多样性上有待提升。
🚀 快速开始
本模型为中文长文本Llama模型,V2版本已推出,相比V1版本有明显提升,回答质量更高。模型使用LongLora训练技术,通过对llama2 - chat进行位置插值后,再使用少量长文本数据进行指令微调,展现出优秀的长文本对话能力。
✨ 主要特性
- 长文本处理能力强:可完成上万字的多文档检索、论文总结等任务,短对话能力几乎没有下降。
- 支持streaming - LLM:与英文版LongAlpaca一样,支持该技术,从而可以生成更长的文本。
- 训练数据有特色:使用的中文数据集与LongAlpaca较为类似,但增加了多文档问答的数据。
📦 安装指南
文档未提及安装步骤,此部分暂略。
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
model_path="yuyijiong/LongAlpaca-7b-32k-chinese"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", load_in_8bit=True).eval()
question="中国的首都是什么?"
input_text = "<s>Human: " + question + "\n</s><s>Assistant: "
input_ids = tokenizer(input_text, return_tensors='pt').input_ids.to(model.device)
with torch.no_grad():
with torch.autocast('cuda'):
output = model.generate(input_ids=input_ids,
max_new_tokens=max_new_tokens,
do_sample=True,
temperature=0.85,
top_k=None,
top_p=0.9,
use_cache=True,
**kwargs)
reply = tokenizer.decode(output[0], skip_special_tokens=False)
reply_return=reply.split('Assistant:')[-1].replace('</s>', '')
print('模型回答:', reply_return)
📚 详细文档
训练方法
- LongAlpaca训练:使用LongLora训练技术,对llama2 - chat进行位置插值后,用少量长文本数据进行指令微调。
- 本模型训练:由[Atom - 7b - chat](https://huggingface.co/FlagAlpha/Atom - 7B - Chat),通过线性位置插值,将文本长度从4k扩展到32k,然后经过lora微调得到。
- 存在问题:由于指令微调数据的任务类型不多,在面对复杂任务时,输出结果质量不能保证;目前[中文指令微调数据集](https://huggingface.co/datasets/yuyijiong/Long - Instruction - Chinese)多样性不够,模型有过拟合问题,将在未来版本改善。
评估和推理
- 支持streaming - LLM:与英文版LongAlpaca一样,支持该技术,可生成更长文本,[示例代码](https://github.com/dvlab - research/LongLoRA/blob/main/run_streaming_llama_longalpaca.py)。
- 指令敏感度:模型对长文本尾部的指令更加敏感,尽量把问题放在参考文档后面。
- 评测结果:在LongBench中文任务评测中,模型在问答、总结等自由回答任务上表现较好,在分类、多项选择等固定选项任务上表现不好,可能是因为微调数据集不包含分类任务。具体得分如下:
| 数据集 | 任务类型 | 评测指标 | 得分 |
| ---- | ---- |---- |---- |
| dureader | 多文档QA |rouge - L |0.18369 |
| multifield_qa | 单文档QA |rouge - L |0.40816 |
| vcsum | 总结 |rouge - L |0.15166 |
| lsht | 文本分类 |Accuracy |0.19680 |
| passage_retrieval | 文本检索 |Accuracy |0.06000 |
问答实例
多文档QA
用户输入(34726字),问题为“秦银科是哪个单位的领导人?”,模型输出“综上所述,秦银科是湖北省潜江市熊口农场党委委员,并曾任熊口农场主要领导职务。”
图书、论文总结
用户输入7748字的图书节选,要求概括内容,模型输出“燕青、戴宗为了救宋江等人,代替宋江等人去了东京,在东京见到了高太尉,打算他许奏朝廷招安,以保众人安全。但燕青也为偷偷带入城送消息,高太尉怀疑他们有奸计。燕青遇见高师师的女儿李师师,遇上了好友李行首,说宋江等人招安的事,李师师愉悦不已。后来燕青又遇上了李行首的好友郑大官,要燕青送给自己的舅舅,燕青知道对方动机,计让李行首与郑大官拿着礼物,去对管着梁山泊的人。最终,李师师在李行首的帮忙下,祝燕青与戴宗顺利回到梁山泊。”
📄 许可证
本模型使用的许可证为cc - by - nc - 4.0。