Q

Qwen3 8B Base

Developed by Qwen
Qwen3是通义千问系列最新一代大语言模型,提供完整的稠密模型与混合专家(MoE)模型体系,覆盖119种语言的36万亿token预训练数据。
Downloads 26.79k
Release Time : 4/28/2025

Model Overview

Qwen3-8B-Base是一个82亿参数的因果语言模型,专注于通用语言建模与专项能力强化,支持32k超长上下文理解。

Model Features

多语言覆盖
预训练数据覆盖119种语言的36万亿token,语言覆盖量达前代的三倍
专项能力强化
通过三阶段预训练策略强化STEM/编程/逻辑推理等专项能力
长文本理解
支持32k超长上下文处理,优化长文本理解能力
训练技术创新
采用MoE全局批次负载均衡损失函数、全模型qk层归一化等创新技术

Model Capabilities

多语言文本生成
编程代码生成
逻辑推理
长文本理解
STEM问题解答

Use Cases

自然语言处理
多语言文本生成
生成多种语言的连贯文本内容
支持119种语言的流畅生成
技术文档处理
解析和理解长篇幅技术文档
32k上下文窗口支持完整文档分析
编程辅助
代码生成与补全
根据自然语言描述生成编程代码
优化后的编程专项能力提供更准确的代码输出
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase