14B-DPO-alpha開源語言模型 - 免費支持中英文本生成，MT-Bench評測表現佳

首頁

14B DPO Alpha

由CausalLM開發

CausalLM/14B-DPO-α是一個基於因果語言模型的大規模語言模型，支持中英文文本生成任務，在MT-Bench評測中表現優異。

大型語言模型

Transformers

支持多種語言#多語言文本生成 #指令微調優化 #中文問答領先

下載量 172

發布時間 : 11/2/2023

模型概述

該模型是一個14B參數規模的因果語言模型，採用DPO（Direct Preference Optimization）優化方法訓練，專注於高質量的文本生成任務。

模型特點

高性能文本生成

在MT-Bench評測中獲得7.618868分，超越同規模其他模型

多語言支持

支持中英文文本生成任務

DPO優化

採用Direct Preference Optimization方法訓練，提升生成質量

大規模訓練數據

基於20+個高質量數據集訓練，包括Guanaco、OpenOrca、Ultrachat等

模型能力

文本生成

對話系統

問答系統

內容創作

使用案例

對話系統

智能客服

用於構建多語言智能客服系統

能夠提供流暢、準確的客服對話體驗

內容創作

文章生成

輔助內容創作者生成高質量文章

生成內容流暢、邏輯清晰

教育

學習助手

作為學生學習輔助工具回答問題

提供準確的知識解答

🚀 CausalLM模型項目

本項目的模型在相關評測中表現出色，同時使用了多種數據集進行訓練。不過需注意模型訓練數據來源未經過濾，可能存在不良內容。

🚀 快速開始

若想了解更多詳情，請參見未經DPO訓練的版本：CausalLM/14B。

📚 詳細文檔

訓練數據集

本模型使用了以下數據集進行訓練：

JosephusCheung/GuanacoDataset
Open-Orca/OpenOrca
stingning/ultrachat
meta-math/MetaMathQA
liuhaotian/LLaVA-Instruct-150K
jondurbin/airoboros-3.1
WizardLM/WizardLM_evol_instruct_V2_196k
RyokoAI/ShareGPT52K
RyokoAI/Fandom23K
milashkaarshif/MoeGirlPedia_wikitext_raw_archive
wikipedia
wiki_lingua
fnlp/moss-003-sft-data
garage-bAInd/Open-Platypus
LDJnr/Puffin
openbmb/llava_zh
BAAI/COIG
TigerResearch/tigerbot-zhihu-zh-10k
liwu/MNBVC
teknium/openhermes
openbmb/UltraFeedback
lmsys/lmsys-chat-1m

模型評測對比

模型	MT-Bench得分
GPT-4	8.99
GPT-3.5-Turbo	7.94
Zephyr-7b-β (過擬合)	7.34
Zephyr-7b-α	6.88
CausalLM/14B-DPO-α	7.618868
CausalLM/7B-DPO-α	7.038125

在2023年12月3日的評測中，該模型在🤗 Open LLM Leaderboard上同規模非基礎模型中排名第1，超越了所有約13B的聊天模型。

模型評測對比圖

模型版本說明

需要注意的是，這並不是在 CausalLM/14B & 7B 上繼續訓練的版本，而是在之前的訓練分支上同時進行了 DPO 訓練的優化版本，一些細節參數可能發生了變化。您仍然需要下載完整模型。

後續版本計劃

很快將會發布beta分支，採用了一些可能不利於某些任務的激進方法，以實現更好地符合人類偏好以接近和超過GPT-3.5基準。敬請期待。

免責聲明

請注意，模型是在未經過濾的互聯網數據上進行訓練的。由於我們無法審核所有數據，可能會出現大量不良內容、色情、暴力和冒犯性語言，我們無法刪除這些內容。因此，您仍然需要對模型的安全性進行自己的檢查，並對輸出中的關鍵詞進行過濾。由於計算資源的限制，我們目前無法為模型的倫理和安全實施RLHF，也無法對拒絕回答某些問題的SFT樣本進行訓練以進行限制性微調。