クノイチ - DPO - 7BオープンソースAIモデル - 一般的なシチュエーションに適用可能で、推論と命令遵守能力が強い

Kunoichi DPO 7B

SanjiWatsukiによって開発

Kunoichi-DPO-7Bは、Kunoichi-7Bモデルをベースに、インテルのOrcaデータを使用してAlpacaテンプレートに対して直接嗜好最適化（DPO）微調整を行ったモデルで、主に汎用シーンを対象とし、より強力な推論と命令遵守能力を持っています。

大規模言語モデル

Transformers

#DPO最適化推論 #8k長文脈サポート #汎用命令強化

ダウンロード数 748

リリース時間 : 1/11/2024

モデル概要

このモデルはDPO微調整により推論と命令遵守能力が向上し、汎用シーンに適していますが、データセットのアライメントによりロールプレイング能力が影響を受ける可能性があります。最大8kの文脈ウィンドウをサポートし、実験的に16kの文脈ウィンドウもサポートしています。

モデル特徴

強化された推論能力

DPO微調整により、モデルは推論と命令遵守の面でより優れた性能を発揮します。

大きな文脈ウィンドウサポート

最大8kの文脈ウィンドウをサポートし、実験的に16kの文脈ウィンドウもサポートしています。

汎用シーンに適用可能

様々な汎用シーンに適していますが、ロールプレイング能力は低下する可能性があります。

モデル能力

テキスト生成

命令遵守

推論タスク

使用事例

汎用テキスト生成

命令応答

ユーザーの命令に基づいて適切な応答テキストを生成します。

MT Benchテストで8.29点を獲得し、複数の同類モデルを上回っています。

教育支援

論理テスト

論理推論と問題解決に使用されます。

Logic Testの得点は0.59で、一部の同類モデルよりも優れた性能を示しています。

🚀 クノイチ-DPO-7B

クノイチ-DPO-7B は、Kunoichi-7B モデルをベースに、インテルのOrcaデータペアとAlpacaテンプレートを用いて直接嗜好最適化（DPO）による微調整を行ったモデルです。このモデルは主に汎用シーンを対象としています。テストでは、Kunoichi-7B よりも強力な推論と命令遵守能力を持っていますが、Orcaデータセットのアライメントにより、ロールプレイ能力が低下する可能性があります。

現在、このモデルはベンチマークテスト中です。結果が確定したら、モデルページを更新します。

image/png

🚀 クイックスタート

このセクションでは、クイックスタートに関する内容が提供されていません。

✨ 主な機能

Kunoichi-7B をベースに DPO 微調整を行っているため、推論と命令遵守能力がより強力です。
汎用シーンに適していますが、データセットのアライメントにより、ロールプレイ能力が影響を受ける可能性があります。
最大 8k のコンテキストウィンドウをサポートしています。NTK RoPE alpha を 2.6 に設定すると、実験的に 16k のコンテキストウィンドウもサポートできます。

📚 ドキュメント

モデル性能

モデル	MT Bench	EQ Bench	MMLU	論理テスト
GPT-4-Turbo	9.32	-	-	-
GPT-4	8.99	62.52	86.4	0.86
クノイチ-DPO-7B	8.29	41.60	-	0.59
クノイチ-7B	8.14	44.32	64.9	0.58
Starling-7B	8.09	-	63.9	0.51
Claude-2	8.06	52.14	78.5	-
Silicon-Maid-7B	7.96	40.44	64.7	0.54
Loyal-Macaroni-Maid-7B	7.95	38.66	64.9	0.57
GPT-3.5-Turbo	7.94	50.28	70	0.57
Claude-1	7.9	-	77	-
Openchat-3.5	7.81	37.08	64.3	0.39
Dolphin-2.6-DPO	7.74	42.88	61.9	0.53
Zephyr-7B-beta	7.34	38.71	61.4	0.30
Llama-2-70b-chat-hf	6.86	51.56	63	-
Neural-chat-7b-v3-1	6.84	43.61	62.4	0.30

モデル	平均点	AGIEval	GPT4All	TruthfulQA	Bigbench
クノイチ-DPO-7B	58.4	45.08	74	66.99	47.52
クノイチ-7B	57.54	44.99	74.86	63.72	46.58
OpenPipe/mistral-ft-optimized-1218	56.85	44.74	75.6	59.89	47.17
Silicon-Maid-7B	56.45	44.74	74.26	61.5	45.32
mlabonne/NeuralHermes-2.5-Mistral-7B	53.51	43.67	73.24	55.37	41.76
teknium/OpenHermes-2.5-Mistral-7B	52.42	42.75	72.99	52.99	40.94
openchat/openchat_3.5	51.34	42.67	72.92	47.27	42.51
berkeley-nest/Starling-LM-7B-alpha	51.16	42.06	72.72	47.33	42.53
HuggingFaceH4/zephyr-7b-beta	50.99	37.33	71.83	55.1	39.7

プロンプトテンプレート

Alpaca テンプレート

以下はタスクを説明する命令です。要求を適切に完了する応答を書いてください。

### 命令:
{prompt}

### 応答:

SillyTavern 形式

SillyTavern では、Noromaid テンプレートを使用すると最適な結果が得られます。

SillyTavern の設定ファイル：コンテキスト設定、命令設定。

また、テキスト生成プリセットの使用を強くおすすめします。温度や最小確率（min p）を調整することで、創造性や安定性を向上させることができます。他のパラメータは通常調整する必要はありません。

コンテキストウィンドウ

このモデルは最大 8k のコンテキストウィンドウをサポートしています。NTK RoPE alpha を 2.6 に設定すると、実験的に 16k のコンテキストウィンドウもサポートできます。

📄 ライセンス

このモデルは CC BY-NC 4.0 ライセンスを採用しています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご