Qwen-3-14B-Drama开源大语言模型 - 免费使用助力高效文本交互与创作

首页

Qwen 3 14b Drama

由 float-trip 开发

Qwen3-14B-Base是通义系列最新一代的大语言模型，提供了一系列全面的密集模型和专家混合（MoE）模型，在训练数据、模型架构和优化技术等方面取得了显著进展。

大型语言模型

Transformers

开源协议:Apache-2.0 #多语言大模型 #32K长文本理解 #三阶段预训练

下载量 167

发布时间 : 7/14/2025

模型简介

Qwen3-14B-Base是一个预训练的因果语言模型，具有强大的语言处理能力，支持多种语言和任务。

模型特点

扩展的高质量预训练语料库

在119种语言的36万亿个标记上进行预训练，语言覆盖范围是Qwen2.5的三倍，包含更丰富的高质量数据。

训练技术和模型架构改进

采用全局批量负载均衡损失和qk层归一化等技术，提高了稳定性和整体性能。

三阶段预训练

第一阶段专注于语言建模和常识获取，第二阶段提高推理能力，第三阶段增强长上下文理解能力。

基于缩放定律的超参数调整

通过全面的缩放定律研究，系统调整关键超参数，实现更好的训练动态和最终性能。

模型能力

文本生成

语言建模

逻辑推理

长上下文理解

多语言支持

使用案例

自然语言处理

文本生成

生成高质量、连贯的文本内容

可用于内容创作、自动摘要等

逻辑推理

解决复杂的逻辑和数学问题

适用于STEM领域的应用

多语言应用

多语言翻译

支持多种语言之间的翻译任务

可用于全球化应用

🚀 Qwen3-14B-Base

Qwen3-14B-Base是Qwen系列最新一代的大语言模型，提供了一系列全面的密集模型和专家混合（MoE）模型。它在训练数据、模型架构和优化技术等方面取得了显著进展，为用户带来了更强大的语言处理能力。

🚀 快速开始

Qwen3的代码已集成到最新的Hugging Face transformers库中，建议您使用最新版本的transformers。

若使用transformers<4.51.0版本，会遇到如下错误：

KeyError: 'qwen3'

✨ 主要特性

Qwen3亮点

Qwen3是通义系列最新一代的大语言模型，提供了一套全面的密集模型和专家混合（MoE）模型。在训练数据、模型架构和优化技术等方面取得了大量进展，与之前发布的通义2.5相比，通义3有以下关键改进：

扩展的高质量预训练语料库：Qwen3在119种语言的36万亿个标记上进行预训练，语言覆盖范围是Qwen2.5的三倍，并且包含了更丰富的高质量数据，包括编码、STEM、推理、书籍、多语言和合成数据。
训练技术和模型架构：Qwen3采用了一系列训练技术和架构改进，包括针对MoE模型的全局批量负载均衡损失和针对所有模型的qk层归一化，从而提高了稳定性和整体性能。
三阶段预训练：第一阶段专注于广泛的语言建模和常识获取，第二阶段提高推理能力，如STEM、编码和逻辑推理，第三阶段通过将训练序列长度扩展到32k个标记来增强长上下文理解能力。
基于缩放定律的超参数调整：通过对三阶段预训练管道进行全面的缩放定律研究，Qwen3分别针对密集模型和MoE模型系统地调整关键超参数，如学习率调度器和批量大小，从而在不同模型规模下实现更好的训练动态和最终性能。

模型概述

Qwen3-14B-Base 具有以下特点：

属性	详情
模型类型	因果语言模型
训练阶段	预训练
参数数量	148亿
非嵌入参数数量	132亿
层数	40
注意力头数量（GQA）	Q为40，KV为8
上下文长度	32,768

更多详细信息，包括基准评估、硬件要求和推理性能，请参考我们的博客、GitHub 和文档。

📄 许可证

本项目采用Apache-2.0许可证。

引用

如果您觉得我们的工作有帮助，请引用我们的成果：

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}