T

Tulu 2 Dpo 7b

allenaiによって開発
Tulu V2 DPO 7BはLlama 2 7Bを微調整した言語モデルで、直接選好最適化(DPO)手法を用いて訓練され、汎用アシスタントとして設計されています。
ダウンロード数 1,702
リリース時間 : 11/13/2023

モデル概要

このモデルはLlama 2 7Bの命令微調整バージョンで、公開利用可能なデータセット、合成データ、人間作成データセットを使用して訓練され、特にDPO手法による選好最適化が施されており、Llama 2 7B Chatの有力な代替品です。

モデル特徴

直接選好最適化(DPO)
DPO手法を採用した訓練により、従来のRLHFと比べて効率的な選好アライメントを実現
多様な訓練データ
公開データ、合成データ、人間作成データセットの混合を使用(UltraFeedbackやTulu V2 SFT混合データセットを含む)
高性能代替案
ベースとなるLlama 2 7B Chatモデルと比較し、複数のベンチマークで優れた性能を発揮

モデル能力

自然言語理解
命令追従
対話生成
テキスト補完

使用事例

対話システム
インテリジェントアシスタント
個人や企業向けのインテリジェントアシスタントとして、様々な問い合わせやタスクを処理
AlpacaEvalベンチマークで85.1%の勝率を達成
コンテンツ生成
クリエイティブライティング
ストーリー創作、詩作などのクリエイティブなテキスト生成を支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase