D

Deepseek V2 Lite

由ZZichen開發
DeepSeek-V2-Lite 是一款經濟高效的專家混合(MoE)語言模型,總參數量16B,激活參數量2.4B,支持32k上下文長度。
下載量 20
發布時間 : 5/31/2024

模型概述

DeepSeek-V2-Lite 是一款強大的專家混合(MoE)語言模型,採用創新的多頭潛在注意力(MLA)和DeepSeekMoE架構,旨在提供經濟高效的訓練和推理性能。

模型特點

多頭潛在注意力(MLA)
通過低秩鍵值聯合壓縮消除推理時鍵值緩存的瓶頸,支持高效推理。
DeepSeekMoE架構
採用高性能MoE架構,能以更低成本訓練更強模型。
經濟高效的訓練和推理
總參數量16B,激活參數量2.4B,可在單塊40G GPU上部署。

模型能力

文本生成
對話系統
代碼生成
數學推理
中文處理
英文處理

使用案例

自然語言處理
文本補全
用於生成連貫的文本補全,適用於寫作輔助、內容生成等場景。
對話系統
構建智能對話助手,支持多輪對話和複雜問答。
代碼生成
代碼補全
生成高質量的代碼片段,支持多種編程語言。
在HumanEval測試中得分29.9。
數學推理
數學問題求解
解決複雜的數學問題,包括代數、幾何等。
在GSM8K測試中得分41.1。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase