Excalibur - 7b - DPOオープンソース大規模言語モデル - 対話品質の向上とビジュアルシーンアプリケーションの最適化

ホーム

Excalibur 7b DPO

InferenceIllusionistによって開発

Excalibur-7b-DPOはExcalibur-7bベースモデルを直接選好最適化(DPO)でファインチューニングした大規模言語モデルで、対話品質と視覚アプリケーションシーンのパフォーマンス向上に焦点を当てています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #DPOファインチューニング最適化 #マルチモーダル視覚質問応答 #ChatMLプロンプト形式

ダウンロード数 22

リリース時間 : 3/28/2024

モデル概要

このモデルはIntel/orca_dpo_pairsデータセットを使用してDPOファインチューニングを行い、特に視覚アプリケーションシーンにおける回答品質の向上を目指しています。ファインチューニング後のモデルはより対話的で包括的になり、複数のベンチマークテストでパフォーマンスが向上しています。

モデル特徴

DPOファインチューニング最適化

直接選好最適化(DPO)手法でファインチューニングし、モデルの対話品質と回答の包括性を大幅に向上

視覚アプリケーション強化

視覚アプリケーションシーンのパフォーマンスを特別に最適化し、画像理解と説明をサポート

マルチフォーマット対応

ChatMLとAlpacaプロンプト形式をサポートし、様々なアプリケーションシーンに対応

量子化バージョン選択可能

重み付き量子化と静的量子化の2つのバージョンを提供し、異なるハードウェア要件に対応

モデル能力

テキスト生成

視覚シーン理解

マルチターン対話

知識質問応答

推論タスク

使用事例

視覚アプリケーション

画像説明生成

入力画像に基づいて詳細な説明を生成

追加のmmprojファイルサポートが必要

対話システム

インテリジェントアシスタント

より自然で流暢な対話アシスタントを構築

ファインチューニング後に対話品質が大幅に向上

教育アプリケーション

知識質問応答

様々な知識質問に回答

AI2推論チャレンジなどのベンチマークテストで良好なパフォーマンス

🚀 Excalibur-7b-DPO

このプロジェクトは、モデルの微調整を試みたもので、特にビジョン関連のユースケースでの応答品質を向上させることを目的としています。

こちらで重み付き（重要度行列）量子化モデルを入手できます。

こちらで静的（レガシー）量子化モデルを入手できます。

🚀 クイックスタート

このモデルは、ビジョン関連のユースケースでの応答品質を向上させるために微調整されています。以下のセクションでは、モデルの詳細、使用方法、評価結果について説明します。

✨ 主な機能

Excalibur-7b を Direct Preference Optimization (DPO) を使用して Intel/orca_dpo_pairs データセットで微調整しました。
微調整により、モデルの会話能力と総合的な性能が向上しました。
ベンチマークスコアが、元の Excelsior-7b モデルと比較していくつかのカテゴリで向上しました。

📚 ドキュメント

注意事項と手法

Excalibur-7b を Direct Preference Optimization (DPO) を使用して Intel/orca_dpo_pairs で微調整しました。
これは、DPO 微調整が Excelsior-7b ベースモデルに与える影響を調べるための簡単な実験です。
単一の A100 で 1 時間強実行しました。
微調整により、モデルを会話型でより総合的なものにすることに成功しました。
ベンチマークスコアが、元の Excelsior-7b と比較して以下のカテゴリで向上しました:
- ARC: 69.71 -> 70.9
- HellaSwag: 87.56 -> 87.93
- TruthfulQA: 67.24 -> 70.82
- 平均: 73.6 -> 73.84
精度: bfloat16

ビジョンに関するサンプル質問

*追加の mmproj ファイルが必要です。ビジョン機能には 2 つのオプションがあります（このリポジトリ内で利用可能）:

通常通り Koboldcpp で好みの gguf ファイルを選択し、モデルサブメニューの LLaVA mmproj フィールドで上記の mmproj ファイルを選択してください。

プロンプト形式

最良の結果を得るには、ChatML をプロンプト形式として使用してください。Alpaca も使用できます。

Open LLM Leaderboard 評価結果

詳細な結果はこちらで確認できます。

メトリック	値
平均	73.84
AI2 Reasoning Challenge (25-Shot)	70.90
HellaSwag (10-Shot)	87.93
MMLU (5-Shot)	65.46
TruthfulQA (0-shot)	70.82
Winogrande (5-shot)	82.48
GSM8k (5-shot)	65.43