D

Dpopenhermes 7B V2

openaccess-ai-collectiveによって開発
DPOpenHermes 7B v2はOpenHermes-2.5-Mistral-7Bを基にした2回目のRL微調整モデルで、直接選好最適化(DPO)による強化学習を行い、Intel/orca_dpo_pairsとallenai/ultrafeedback_binarized_cleanedの選好データセットを使用しています。
ダウンロード数 30
リリース時間 : 12/6/2023

モデル概要

これはRL微調整された大規模言語モデルで、テキスト生成タスクに特に適しており、マルチターン対話や指示追従に優れています。

モデル特徴

直接選好最適化
DPO手法を用いた強化学習微調整により、高品質な応答への選好が向上
ChatMLプロンプト形式
ChatML形式のマルチターン対話をサポートし、より構造化された対話システムを提供
システムプロンプトサポート
マルチターン対話でタスクを実行するためにシステム指示を効果的に活用可能

モデル能力

マルチターン対話
指示追従
テキスト生成

使用事例

対話システム
インテリジェントアシスタント
マルチターン対話が可能なインテリジェントアシスタントとして利用可能
複雑なユーザー指示を理解し実行できる
教育
学習支援
学生の質問への回答や学習指導を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase