7B-DPO-alpha開源語言模型 - 免費支持中英文文本生成任務

首頁

7B DPO Alpha

由CausalLM開發

基於多源數據集訓練的7B參數因果語言模型，經過DPO優化，支持中英文文本生成任務

大型語言模型

Transformers

支持多種語言#中英雙語生成 #人類偏好優化 #多源數據集

下載量 131

發布時間 : 11/2/2023

模型概述

該模型是一個經過直接偏好優化(DPO)的因果語言模型，專注於文本生成任務。它基於Llama架構，融合了多種高質量數據集進行訓練，在MT-Bench基準測試中表現優於同類7B模型。

模型特點

多源數據融合

整合了20+個高質量數據集，包括Guanaco、OpenOrca、UltraChat等，覆蓋廣泛領域

DPO優化

採用直接偏好優化方法訓練，相比基礎版本更符合人類偏好

雙語支持

同時支持英文和中文文本生成，在中文任務上表現優異

性能優化

MT-Bench評分達7.038，超過同類7B模型平均水平

模型能力

文本生成

對話系統

問答系統

內容創作

使用案例

對話系統

智能客服

用於構建多輪對話客服系統

內容創作

文章生成

根據提示生成連貫的文本內容

教育輔助

學習助手

解答學習問題，提供知識解釋

🚀 CausalLM模型項目

本項目的模型基於多數據集訓練，在文本生成任務上表現出色，通過DPO訓練進行優化，為用戶提供了強大的文本生成能力。同時，我們也提醒用戶注意模型訓練數據的特性以及相關的安全問題。

📚 詳細文檔

訓練數據集

模型訓練使用了以下數據集：

JosephusCheung/GuanacoDataset
Open-Orca/OpenOrca
stingning/ultrachat
meta-math/MetaMathQA
liuhaotian/LLaVA-Instruct-150K
jondurbin/airoboros-3.1
WizardLM/WizardLM_evol_instruct_V2_196k
RyokoAI/ShareGPT52K
RyokoAI/Fandom23K
milashkaarshif/MoeGirlPedia_wikitext_raw_archive
wikipedia
wiki_lingua
fnlp/moss-003-sft-data
garage-bAInd/Open-Platypus
LDJnr/Puffin
openbmb/llava_zh
BAAI/COIG
TigerResearch/tigerbot-zhihu-zh-10k
liwu/MNBVC
teknium/openhermes
openbmb/UltraFeedback
lmsys/lmsys-chat-1m

支持語言

模型支持以下語言：

英語
中文

模型類型

模型屬於文本生成類型（pipeline_tag: text-generation），涉及的標籤有：llama、llama2、qwen、causallm。

模型對比

模型	MT-Bench得分
GPT-4	8.99
GPT-3.5-Turbo	7.94
Zephyr-7b-β (過擬合)	7.34
Zephyr-7b-α	6.88
CausalLM/14B-DPO-α	7.618868
CausalLM/7B-DPO-α	7.038125

模型說明

需要注意的是，此版本並非在 CausalLM/14B & 7B 上繼續訓練的版本，而是在之前的訓練分支上同時進行了DPO訓練的優化版本，部分詳細參數可能已發生變化。您仍需下載完整模型。

未來計劃

很快將會發布beta分支，該分支採用了一些可能不利於某些任務的激進方法，目的是實現更好地符合人類偏好，以接近或超過GPT - 3.5基準。敬請期待。

免責聲明

⚠️ 重要提示

請注意，模型是在未經過濾的互聯網數據上進行訓練的。由於我們無法審核所有數據，可能會出現大量不良內容、色情、暴力和冒犯性語言，我們無法刪除這些內容。因此，您仍然需要對模型的安全性進行自己的檢查，並對輸出中的關鍵詞進行過濾。由於計算資源的限制，我們目前無法為模型的倫理和安全實施RLHF，也無法對拒絕回答某些問題的SFT樣本進行訓練以進行限制性微調。