D

Deepseek V2 Lite

由 ZZichen 开发
DeepSeek-V2-Lite 是一款经济高效的专家混合(MoE)语言模型,总参数量16B,激活参数量2.4B,支持32k上下文长度。
下载量 20
发布时间 : 5/31/2024

模型简介

DeepSeek-V2-Lite 是一款强大的专家混合(MoE)语言模型,采用创新的多头潜在注意力(MLA)和DeepSeekMoE架构,旨在提供经济高效的训练和推理性能。

模型特点

多头潜在注意力(MLA)
通过低秩键值联合压缩消除推理时键值缓存的瓶颈,支持高效推理。
DeepSeekMoE架构
采用高性能MoE架构,能以更低成本训练更强模型。
经济高效的训练和推理
总参数量16B,激活参数量2.4B,可在单块40G GPU上部署。

模型能力

文本生成
对话系统
代码生成
数学推理
中文处理
英文处理

使用案例

自然语言处理
文本补全
用于生成连贯的文本补全,适用于写作辅助、内容生成等场景。
对话系统
构建智能对话助手,支持多轮对话和复杂问答。
代码生成
代码补全
生成高质量的代码片段,支持多种编程语言。
在HumanEval测试中得分29.9。
数学推理
数学问题求解
解决复杂的数学问题,包括代数、几何等。
在GSM8K测试中得分41.1。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase