D

Dpopenhermes 7B V2

由openaccess-ai-collective開發
DPOpenHermes 7B v2是基於OpenHermes-2.5-Mistral-7B的第二次RL微調模型,通過直接偏好優化(DPO)進行強化學習,使用了Intel/orca_dpo_pairs和allenai/ultrafeedback_binarized_cleaned偏好數據集。
下載量 30
發布時間 : 12/6/2023

模型概述

這是一個經過RL微調的大語言模型,主要用於文本生成任務,特別擅長多輪對話和指令跟隨。

模型特點

直接偏好優化
使用DPO方法進行強化學習微調,提高了模型對高質量響應的偏好
ChatML提示格式
支持ChatML格式的多輪對話,提供更結構化的對話系統
系統提示支持
能夠有效利用系統指令在多輪對話中執行任務

模型能力

多輪對話
指令跟隨
文本生成

使用案例

對話系統
智能助手
可作為智能助手進行多輪對話
能夠理解並執行復雜的用戶指令
教育
學習輔助
幫助學生解答問題和提供學習指導
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase