Hunyuan-7B-Instruct-0124开源大语言模型 - 免费部署，长文本处理表现出色！

首页

Hunyuan 7B Instruct 0124

由 tencent 开发

混元-7B是腾讯发布的开源大语言模型，具有256K长文本处理能力和分组查询注意力机制(GQA)，在中文7B稠密模型中表现优异。

大型语言模型

Transformers

英语开源协议:其他 #256K长文本处理 #中文7B最强 #GQA注意力机制

下载量 590

发布时间 : 1/24/2025

模型简介

混元-7B模型是腾讯开发的大规模语言模型，专注于中文处理能力，在计算资源和性能表现之间取得了良好平衡。

模型特点

256K长文本处理

将长文本处理能力扩展到256K，适合处理长文档和复杂上下文

分组查询注意力机制

采用GQA(Grouped Query Attention)机制，提升模型效率

高性能推理

提供vLLM和TensorRT-LLM两种推理后端选择，优化推理速度

中文优化

针对中文任务进行了特别优化，在中文基准测试中表现优异

模型能力

文本生成

问答系统

代码生成

数学推理

知识问答

长文本理解

使用案例

教育

智能辅导

帮助学生解答各类学科问题

在数学推理(GSM8K)测试中达到93.33%准确率

研究

学术论文分析

处理和分析长篇幅学术论文

支持256K上下文长度

商业

智能客服

处理客户咨询和问题解答

在中文问答测试中表现优异

🚀 混元-7B模型

混元此次发布的7B模型，包括混元-7B预训练模型-0124 和混元-7B指令模型-0124 ，采用了更优的数据分配和训练方式，性能强劲，在计算资源和性能表现之间取得了良好的平衡。在众多大语言模型中脱颖而出，是目前最强的中文7B稠密模型之一。

GITHUB

🚀 快速开始

你可以参考 Tencent-Hunyuan-Large 中的内容快速上手。训练和推理代码可以使用该GitHub仓库中提供的版本。

推理框架

本次开源版本为混元-7B模型提供了两种推理后端选项：广受欢迎的 vLLM后端和TensorRT-LLM后端。在本次发布中，我们首先开源了vLLM解决方案，计划在不久的将来发布TRT-LLM解决方案。

✨ 主要特性

技术优势介绍

模型

将长文本处理能力扩展到256K，并采用了分组查询注意力机制（Grouped Query Attention，GQA）。

推理框架

本次开源发布为混元-7B模型量身定制了两种推理后端选项，分别是广受欢迎的 vLLM后端和TensorRT-LLM后端。此次发布先开源了vLLM解决方案，后续还计划发布TRT-LLM解决方案。

训练框架

混元-7B开源模型完全兼容Hugging Face格式，研究人员和开发者可以使用hf-deepspeed框架对模型进行微调。更多信息请参考：Tencent-Hunyuan-Large。

📚 详细文档

基准测试

注意：以下基准测试由TRT-LLM后端进行评估。

混元-7B预训练模型

评测指标	Qwen2.5-7B	Llama3-8B	OLMO2-7B	混元-7B-V2
MMLU	74.26	66.95	63.7	75.37
MMLU-Pro	46.17	34.04	31	47.54
MMLU-CF	61.01	55.21	52.94	59.62
MMLU-Redux	73.47	66.44	63.74	74.54
BBH	70.4	62.16	38.01	70.77
HellaSwag	75.82	78.24	61.97	80.77
WinoGrande	69.69	73.64	74.43	71.51
PIQA	79.33	80.52	80.63	81.45
SIQA	77.48	61.05	65.2	79.73
NaturalQuestions	31.77	35.43	36.9	33.52
DROP	68.2	60.13	60.8	68.63
ARC-C	91.64	77.59	74.92	91.97
TriviaQA	69.31	78.61	78	74.31
中文简单问答	30.37	19.4	7.35	30.51
简单问答	4.98	7.68	4.51	3.73
CMMLU	81.39	50.25	38.79	82.19
C-Eval	81.11	50.4	38.53	82.12
C3	71.77	61.5	54	79.07
GSM8K	82.71	57.54	67.5	93.33
MATH	49.6	18.45	19	62.15
CMATH	84.33	52.83	44	88.5
HumanEval	57.93	35.98	15.24	59.15

混元-7B指令模型

模型	Qwen2.5-7B-Instruct	Llama-3-8B-Instruct	OLMo-2-1124-7B-DPO	混元-7B指令模型
ARC-C	89.83	82.4	-	88.81
BBH	66.24	-	46.6	76.47
CEval	76.82	-	-	81.8
CMMLU	78.55	-	-	82.29
DROP_F1	80.63	-	60.5	82.96
GPQA	36.87	34.6	-	47.98
Gsm8k	80.14	80.6	85.1	90.14
HellaSwag	83.34	-	-	86.57
HumanEval	84.8	60.4	-	84.0
MATH	72.86	-	32.5	70.64
MMLU	72.36	68.5	61.3	79.18