Telechat-7B开源大语言模型 - 依托海量语料支持高效对话交流

首页

Telechat 7B

由 Tele-AI 开发

TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型，7B模型基座采用1.5万亿Tokens中英文高质量语料进行训练，12B模型基座采用3万亿Tokens中英文高质量语料进行训练。

大型语言模型

Transformers

开源协议:Apache-2.0 #万亿级语料训练 #中英文混合理解 #长文本生成

下载量 238

发布时间 : 1/8/2024

模型简介

TeleChat是一个高性能的大语言模型，支持多轮对话、长文生成和代码生成等多种任务，在通用问答和知识类、代码类、数学类榜单上表现优异。

模型特点

高性能架构

采用旋转位置编码、SwiGLU激活函数和RMSNorm层标准化等先进技术，提升模型训练速度和效果

多轮对话支持

针对多轮模型训练集成了mask loss训练方式，更好地聚焦多轮答案

长文生成能力

在工作总结、工作计划、PPT大纲等长文写作任务上表现优异

外推能力

采用NTK-aware外推和attention scaling外推方式，可以外推到96K

模型能力

文本生成

多轮对话

问答系统

代码生成

数学推理

长文写作

使用案例

办公自动化

工作总结生成

自动生成详细的工作总结报告

生成结构清晰、内容详实的工作总结

PPT大纲生成

根据主题自动生成PPT内容大纲

生成逻辑清晰、结构合理的PPT大纲

教育

数学问题解答

解答各类数学问题和证明题

在GSM8K和MATH评测中表现优异

编程辅助

代码生成

根据自然语言描述生成代码

在HumanEval评测中表现良好

🚀 星辰语义大模型-TeleChat

星辰语义大模型-TeleChat 是由中电信人工智能科技有限公司研发训练的大语言模型。它采用高质量中英文语料训练，开源了多个版本的对话模型及量化版本，在多种评测中表现出色，还开源了大规模中文数据集。

🚀 快速开始

你可以通过以下链接获取模型和数据集：

模型：Hugging Face、MindSpore、gitee
数据集：huggingface、天翼云盘（访问码：pkg8）
技术报告：Tech Report
交流渠道：WeChat

✨ 主要特性

模型版本丰富

开源了对话模型TeleChat-7B-bot与TeleChat-12B-bot，以及其huggingface格式的权重文件，还有7B、12B模型的int8和int4量化版本。

模型性能提升

TeleChat-12B-bot在模型结构、训练数据、训练方法等方面进行了改进，在通用问答和知识类、代码类、数学类榜单上相比TeleChat-7B-bot均有大幅提升。

多能力支持

支持deepspeed微调，开源了基于deepspeed的训练代码，支持Zero并行显存优化，同时集成了FlashAttention2。
支持多轮能力，开源了多轮数据构建方式，针对多轮模型训练集成了针对多轮的mask loss训练方式，更好的聚焦多轮答案，提升问答效果。
外推能力提升，开源了8K训练版本模型，采用NTK-aware外推和attention scaling外推方式，可以外推到96K。
具备较好的长文生成能力，在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务上表现较好。

数据集优质

TeleChat-PTD 是由电信星辰大模型TeleChat预训练语料中抽取出的综合性大规模中文数据集，数据经过过滤和去重，质量较高。

评测效果好

TeleChat模型相比同规模模型在评测效果方面也有较好的表现，评测集涵盖了自然语言理解、知识、数学计算和推理、代码生成等多个方面。

📦 安装指南

暂未提供具体安装步骤，可参考相关代码仓库中的说明进行安装。

💻 使用示例

基础用法

>>> import os
>>> import torch
>>> from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
>>> os.environ["CUDA_VISIBLE_DEVICES"] = '0'
>>> tokenizer = AutoTokenizer.from_pretrained('../models/7B')
>>> model = AutoModelForCausalLM.from_pretrained('../models/7B', trust_remote_code=True, device_map="auto", torch_dtype=torch.float16)
>>> generate_config = GenerationConfig.from_pretrained('../models/7B')
>>> question="生抽与老抽的区别？"
>>> answer, history = model.chat(tokenizer = tokenizer, question=question, history=[], generation_config=generate_config, stream=False)
>>> print(answer)
生抽和老抽是两种不同的酱油，它们的区别如下：
 
1. 原料不同：生抽是用大豆、小麦等谷物为原料制成的；而老抽则是用豆酱、面酱等发酵后的调味品为原料制成的。
 
2. 制作工艺不同：生抽是通过将大豆浸泡在水中，然后经过蒸煮、发酵等过程制成的；而老抽则是在生抽的基础上加入一定比例的盐、糖、味精等调料，再进行发酵制成的。
 
3. 口感和风味不同：生抽具有咸鲜的味道，口感比较清爽；而老抽则具有特殊的香味和味道，口感相对较重。
 
总的来说，生抽和老抽都是酱油的不同种类，它们在原料、制作工艺和口感等方面都有所不同。

📚 详细文档

模型介绍

星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型，其中7B模型基座采用1.5万亿 Tokens中英文高质量语料进行训练，12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。
模型结构：采用标准的 Decoder-only 结构设计，并在模型维度做了一些改进，如使用 Rotary Embedding 的位置编码方法、SwiGLU 激活函数、基于 RMSNorm 的 Pre-Normalization，以及将TeleChat-12B-bot的词嵌入层和输出lm head层参数分开。

	layer_num	hidden_size	ffn_hidden_size	head_num	tie_word_embeddings
7B	30	4096	12288	32	是
12B	38	5120	12288	32	否

数据开源

数据介绍：TeleChat-PTD 是由电信星辰大模型TeleChat预训练语料中抽取出的综合性大规模中文数据集，数据主要来源于网页、书籍、官方媒体等，经过过滤和去重，大约公开了2.7亿条数据，原始大小约1TB，压缩后480G，共189个文件。
数据下载：huggingface下载地址：TeleChat-PTD；天翼云盘下载地址：数据下载（访问码：pkg8）。

效果评测

TeleChat模型相比同规模模型在评测效果方面也有较好的表现，评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集，评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等。

Model	MMLU	C-Eval	CMMLU	AGIEval	GAOKAO	GSM8K	MATH	HumanEval	CSL	CHID	EPRSTMT	BBH	HellaSwag
	5-shot	5-shot	5-shot	zero-shot	zero-shot	4-shot	4-shot	zero-shot	zero-shot	zero-shot	zero-shot	3-shot	zero-shot
LLaMA2-7B-chat	46.2	31.9	31.5	28.5	16.1	26.3	3.9	12.2	58.8	44.1	57.5	35.6	74.1
LLaMA2-13B-chat	54.6	36.2	38.7	32.3	18.6	29.6	5.0	18.9	61.2	48.0	59.4	40.2	78.2
ChatGLM2-6B-chat	45.9	52.6	49.3	39.0	46.4	28.8	6.5	11.0	61.2	57.9	71.2	32.7	57.0
ChatGLM3-6B-chat	51.9	53.8	54	38.9	49.3	56.7	18.7	61	65.6	63.4	85	44.6	62.7
Baichuan2-7B-chat	52.8	55.6	54.0	35.3	39.7	32.8	6	13.4	60	75.2	87.5	35.8	61.6
Baichuan2-13B-chat	57	56.7	58.4	40	51.4	55.3	8.6	17.7	63.1	78.2	87.5	49.9	66.9
Qwen-7B-chat	56.6	59.3	59.5	41.3	63.3	52.5	10.3	26.2	63.1	72.3	88.8	46.9	59.9
Qwen-14B-chat	66.4	71.7	70.0	47.3	76.5	61.0	26.8	36.6	55.6	72.3	91.2	58.0	65.2
TeleChat-7B-chat	60.5	64.6	64.3	46.8	59	36.7	10.3	20.1	66.8	88.0	87.5	19.5	36.7
TeleChat-12B-chat	73.3	66.6	74.2	51.7	53.1	57.2	16.0	22.0	60.6	83.2	86.3	52.2	71.5

说明：CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于OpenCompass平台提供的评测方法进行评估，而对于对比模型，我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单，具体方法见evaluation/文件夹。

声明、协议、引用

声明

我们在此声明，不要使用TeleChat模型及其衍生模型进行任何危害国家社会安全或违法的活动。同时，我们也要求使用者不要将TeleChat模型用于没有安全审查和备案的互联网服务。我们希望所有使用者遵守上述原则，确保科技发展在合法合规的环境下进行。

我们已经尽我们所能，来确保模型训练过程中使用的数据的合规性。然而，尽管我们已经做出了巨大的努力，但由于模型和数据的复杂性，仍有可能存在一些无法预见的问题。因此，如果由于使用TeleChat开源模型而导致的任何问题，包括但不限于数据安全问题、公共舆论风险，或模型被误导、滥用、传播或不当利用所带来的任何风险和问题，我们将不承担任何责任。

协议

社区使用 TeleChat 模型需要遵循《TeleChat模型社区许可协议》。TeleChat模型支持商业用途，如果您计划将 TeleChat 模型或其衍生品用于商业目的，您需要通过以下联系邮箱 tele_ai@chinatelecom.cn，提交《TeleChat模型社区许可协议》要求的申请材料。审核通过后，将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。

引用

如需引用我们的工作，请使用如下 reference:

@misc{wang2024telechat,
      title={TeleChat Technical Report}, 
      author={Zihan Wang and Xinzhang Liu and Shixuan Liu and Yitong Yao and Yuyao Huang and Zhongjiang He and Xuelong Li and Yongxiang Li and Zhonghao Che and Zhaoxi Zhang and Yan Wang and Xin Wang and Luwen Pu and Huihan Xu and Ruiyu Fang and Yu Zhao and Jie Zhang and Xiaomeng Huang and Zhilong Lu and Jiaxin Peng and Wenjun Zheng and Shiquan Wang and Bingkai Yang and Xuewei he and Zhuoru Jiang and Qiyi Xie and Yanhan Zhang and Zhongqiu Li and Lingling Shi and Weiwei Fu and Yin Zhang and Zilu Huang and Sishi Xiong and Yuxiang Zhang and Chao Wang and Shuangyong Song},
      year={2024},
      eprint={2401.03804},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

🔧 技术细节

模型结构改进

位置编码：使用 Rotary Embedding 的位置编码方法，将相对位置信息依赖集成到 self-attention 中，具有较好的位置外推性，还可以与Flash-Attention v2 配合使用，提升模型训练速度约20%。
激活函数：使用 SwiGLU 激活函数替代GELU激活函数，为减少计算量，将ffn_hidden_size设置为小于原始SwiGLU中的4倍隐藏层大小。
层标准化：基于 RMSNorm 的 Pre-Normalization。
词嵌入层与输出层解耦：将TeleChat-12B-bot的词嵌入层和输出lm head层参数分开，有助于增强训练稳定性和收敛性。

训练方法改进

使用科学数据配比学习与课程学习的方法，使用小参数模型在多种数据配比的数据上拟合，得到对各个数据集难度的先验估计；训练过程中每隔一段时间自动化评估当前模型在所有数据集上的loss，以及在评测集上的生成效果，动态提升较难学习的数据集权重，保证模型在各个数据集上都有较佳的拟合效果。

📄 许可证

本项目采用 Apache-2.0 许可证。社区使用 TeleChat 模型需要遵循《TeleChat模型社区许可协议》。TeleChat模型支持商业用途，如果您计划将 TeleChat 模型或其衍生品用于商业目的，您需要通过以下联系邮箱 tele_ai@chinatelecom.cn，提交《TeleChat模型社区许可协议》要求的申请材料。审核通过后，将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。