D

Dpopenhermes 7B V2

Developed by openaccess-ai-collective
DPOpenHermes 7B v2はOpenHermes-2.5-Mistral-7Bを基にした2回目のRL微調整モデルで、直接選好最適化(DPO)による強化学習を行い、Intel/orca_dpo_pairsとallenai/ultrafeedback_binarized_cleanedの選好データセットを使用しています。
Downloads 30
Release Time : 12/6/2023

Model Overview

これはRL微調整された大規模言語モデルで、テキスト生成タスクに特に適しており、マルチターン対話や指示追従に優れています。

Model Features

直接選好最適化
DPO手法を用いた強化学習微調整により、高品質な応答への選好が向上
ChatMLプロンプト形式
ChatML形式のマルチターン対話をサポートし、より構造化された対話システムを提供
システムプロンプトサポート
マルチターン対話でタスクを実行するためにシステム指示を効果的に活用可能

Model Capabilities

マルチターン対話
指示追従
テキスト生成

Use Cases

対話システム
インテリジェントアシスタント
マルチターン対話が可能なインテリジェントアシスタントとして利用可能
複雑なユーザー指示を理解し実行できる
教育
学習支援
学生の質問への回答や学習指導を提供
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase