L

Llama 3 8B SFR Iterative DPO R

Salesforceによって開発
Llama-3-8Bベースの命令最適化モデルで、反復型DPO強化学習トレーニングを採用し、複数のベンチマークテストで同規模および一部の大規模モデルを上回る
ダウンロード数 55
リリース時間 : 5/9/2024

モデル概要

強化学習で最適化されたオープンソース命令モデルで、対話品質とタスク遂行能力の向上に焦点を当て、様々な自然言語処理タスクに適用可能

モデル特徴

反復型DPOトレーニング
革新的なオンラインRLHFトレーニング手法を採用し、従来のPPO方法よりも効率的でチューニングが容易
卓越した性能
Alpaca-Eval-V2、MT-BenchなどのベンチマークでGPT-3.5-turboなどの商用モデルを上回る
純粋なオープンソースデータトレーニング
完全にオープンソースデータセットでトレーニングされ、人/GPT4による注釈データは一切使用していない

モデル能力

自然言語理解
命令追従
マルチターン対話
テキスト生成
質問応答

使用事例

インテリジェントアシスタント
パーソナライズドラーニングアシスタント
書道学習アドバイスなどの個別指導
構造化された実用的な学習アドバイスを提供可能
カスタマーサポートシステム
自動化カスタマーサポート
一般的な顧客問い合わせの処理
効率的かつ正確な応答能力
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase