Excalibur-7b-DPO開源大語言模型 - 提升對話質量，優化視覺場景應用

首頁

Excalibur 7b DPO

由InferenceIllusionist開發

Excalibur-7b-DPO是基於Excalibur-7b基礎模型通過直接偏好優化(DPO)微調的大語言模型，專注於提升對話質量和視覺應用場景表現。

大型語言模型

Transformers

開源協議:Apache-2.0 #DPO微調優化 #多模態視覺問答 #ChatML提示格式

下載量 22

發布時間 : 3/28/2024

模型概述

該模型使用Intel/orca_dpo_pairs數據集進行DPO微調，旨在提升原始模型的回答質量，特別是在視覺應用場景中。微調後模型更具對話性和全面性，在多個基準測試中表現有所提升。

模型特點

DPO微調優化

使用直接偏好優化(DPO)方法微調，顯著提升模型對話質量和回答全面性

視覺應用增強

特別優化了視覺應用場景的表現，支持圖像理解和描述

多格式支持

支持ChatML和Alpaca提示格式，適應不同應用場景

量化版本可選

提供加權量化和靜態量化兩種版本，滿足不同硬件需求

模型能力

文本生成

視覺場景理解

多輪對話

知識問答

推理任務

使用案例

視覺應用

圖像描述生成

根據輸入圖像生成詳細描述

需要額外mmproj文件支持

對話系統

智能助手

構建更自然流暢的對話助手

微調後對話質量顯著提升

教育應用

知識問答

回答各類知識性問題

在AI2推理挑戰賽等基準測試中表現良好

指標	數值
平均分	73.84
AI2 推理挑戰 (25 樣本)	70.90
HellaSwag (10 樣本)	87.93
MMLU (5 樣本)	65.46
TruthfulQA (0 樣本)	70.82
Winogrande (5 樣本)	82.48
GSM8k (5 樣本)	65.43

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Excalibur 7b DPO

模型概述

模型特點

模型能力

使用案例

🚀 Excalibur-7b-DPO

🚀 快速開始

✨ 主要特性

📚 詳細文檔

視覺用例說明

提示格式

基準測試結果

📄 許可證