Ziya-LLaMA-13B-Pretrain-v1开源模型 - 优化中文分词，大幅提升中文生成理解能力

首页

Ziya LLaMA 13B Pretrain V1

由 IDEA-CCNL 开发

基于LLaMa架构的130亿参数大规模预训练模型，针对中文分词进行优化，完成1100亿token的中英文增量预训练，显著提升中文生成与理解能力

大型语言模型

Transformers

支持多种语言开源协议:Gpl-3.0 #中英双语优化 #增量预训练 #中文分词增强

下载量 113

发布时间 : 6/1/2023

模型简介

姜子牙-LLaMA-13B-预训练-v1是基于LLaMa架构的130亿参数大规模预训练模型，针对中文分词进行优化，并完成1100亿token的中英文增量预训练，显著提升中文生成与理解能力。

模型特点

中文优化

在LLaMA原生词表基础上新增7000+高频中文字符，显著提升中文处理效率

大规模增量预训练

完成1100亿token的中英文增量预训练，是目前公开的LLaMA-13B模型最大规模增量训练

高性能训练

使用160张40GB显存A100显卡，单卡计算吞吐达118 TFLOP/s，训练仅耗时8天

模型能力

文本生成

文本理解

翻译

编程

文本分类

信息抽取

摘要生成

文案创作

常识问答

数学计算

使用案例

内容创作

旅游计划生成

根据用户需求生成详细的旅游计划

生成结构清晰、内容丰富的旅游计划

教育

学科问答

回答各学科领域的知识问题

在中文多学科评测中表现优于原始LLaMA模型

🚀 子牙-LLaMA-13B预训练模型v1

子牙-LLaMA-13B-Pretrain-v1 是基于LLaMa的130亿参数大规模预训练模型，针对中文分词优化，提升了中文生成和理解能力。其衍生的通用大模型具备翻译、编程等多种能力。

主页：封神榜
GitHub：封神榜-LM

⚠️ 重要提示

由于LLaMA权重的许可证限制，我们无法直接发布完整的模型权重，用户需要参考使用说明进行合并。

✨ 主要特性

中文优化：针对中文分词进行优化，完成中英文 110B tokens 的增量预训练，显著提升中文生成和理解能力。
能力丰富：衍生的通用大模型 Ziya-LLaMA-13B-v1 具备翻译、编程、文本分类、信息抽取、摘要、文案生成、常识问答和数学计算等能力。

📦 安装指南

由于LLaMA权重的许可限制，该模型不能用于商业用途，请严格遵守LLaMA的使用政策。考虑到LLaMA权重的许可证限制，我们无法直接发布完整的模型权重。因此，我们使用了FastChat开源工具作为基础，并对其进行了进一步的优化。我们计算并发布了Ziya-LLaMA-13B-v1权重与原始LLaMA权重之间的差值。用户可以按照以下步骤操作以获得Ziya-LLaMA-13B-v1完整权重：

Step 1: 获取LLaMA权重并转成Hugging Face Transformers模型格式

可参考转换脚本（若已经有huggingface权重则跳过）

python src/transformers/models/llama/convert_llama_weights_to_hf.py \
    --input_dir /path/to/downloaded/llama/weights --model_size 13B --output_dir /output/path

Step 2: 下载Ziya-LLaMA-13B-v1的delta权重以及step 1中转换好的原始LLaMA权重

使用如下脚本转换：https://github.com/IDEA-CCNL/Fengshenbang-LM/blob/main/fengshen/utils/apply_delta.py

python3 -m apply_delta --base ~/model_weights/llama-13b --target ~/model_weights/Ziya-LLaMA-13B --delta ~/model_weights/Ziya-LLaMA-13B-v1

💻 使用示例

基础用法

加载step 2得到的模型推理

from transformers import AutoTokenizer
from transformers import LlamaForCausalLM
import torch


device = torch.device("cuda")

query="帮我写一份去西安的旅游计划"
model = LlamaForCausalLM.from_pretrained(ckpt, torch_dtype=torch.float16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(ckpt)
inputs =  query.strip()
      
input_ids = tokenizer(inputs, return_tensors="pt").input_ids.to(device)
generate_ids = model.generate(
            input_ids,
            max_new_tokens=1024, 
            do_sample = True, 
            top_p = 0.85, 
            temperature = 1.0, 
            repetition_penalty=1., 
            eos_token_id=2, 
            bos_token_id=1, 
            pad_token_id=0)
output = tokenizer.batch_decode(generate_ids)[0]
print(output)

📚 详细文档

姜子牙系列模型

模型分类

属性	详情
需求	通用
任务	AGI模型
系列	姜子牙
模型	LLaMA
参数	13B
额外	英文和中文

模型信息

继续预训练

原始数据包含英文和中文，其中英文数据来自openwebtext、Books、Wikipedia和Code，中文数据来自清洗后的悟道数据集、自建的中文数据集。在对原始数据进行去重、模型打分、数据分桶、规则过滤、敏感主题过滤和数据评估后，最终得到125B tokens的有效数据。

为了解决LLaMA原生分词对中文编解码效率低下的问题，我们在LLaMA词表的基础上增加了7k+个常见中文字，通过和LLaMA原生的词表去重，最终得到一个39410大小的词表，并通过复用Transformers里LlamaTokenizer来实现了这一效果。

在增量训练过程中，我们使用了160张40GB的A100，采用2.6M tokens的训练集样本数量和FP 16的混合精度，吞吐量达到118 TFLOP per GPU per second。因此我们能够在8天的时间里在原生的LLaMA-13B模型基础上，增量训练110B tokens的数据。据我们所知，这也是至今为止LLaMA-13B上最大规模增量训练。

训练期间，虽然遇到了机器宕机、底层框架bug、loss spike等各种问题，但我们通过快速调整，保证了增量训练的稳定性。我们也放出训练过程的loss曲线，让大家了解可能出现的问题。

训练loss曲线

效果评估

以下是 Ziya-LLaMA-13B-Pertrain-v1 和继续训练前的LLaMA 模型在英文公开评测 HeLM 和中文多项选择评测集上的评估效果对比。

英文评估结果

模型	平均胜率	MMLU	BoolQ	NarrativeQA	NaturalQuestion(闭卷)	NaturalQuestion(开卷)	QuAC	TruthfulQA	IMDB
LLaMA-13B	0.500	0.424	0.718	0.440	0.349	0.591	0.318	0.326	0.487
Ziya-LLaMA-13B-Pretrain-v1	0.650	0.433	0.753	0.445	0.348	0.528	0.335	0.249	0.497

中文评估结果

模型	上下文情况	c3	常识	语文	数学	英语	物理	化学	生物	历史	政治	地理
LLaMA-13B	0-shot	0.4817	0.3088	0.2674	0.2882	0.3399	0.2581	0.2478	0.2271	0.3380	0.3275	0.296
Ziya-LLaMA-13B-Pretrain-v1	0-shot	0.5354	0.3373	0.2925	0.3059	0.3428	0.2903	0.2655	0.3215	0.4190	0.4123	0.4425
LLaMA-13B	5-shot	0.5314	0.3586	0.2813	0.2912	0.4476	0.2939	0.2301	0.2330	0.3268	0.3187	0.3103
Ziya-LLaMA-13B-Pretrain-v1	5-shot	0.6037	0.4330	0.2802	0.2912	0.4363	0.2975	0.2802	0.3422	0.4358	0.4357	0.4540

微调示例

参考 ziya_finetune

推理量化示例

参考 ziya_inference

📄 许可证

本项目采用 GPL-3.0 许可证。

📖 引用

如果您在您的工作中使用了我们的模型，可以引用我们的论文：

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

也欢迎引用我们的网站：

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}