G

Gemma 2 9b It WPO HB

wzhouadによって開発
gemma-2-9b-itモデルをベースに、重み付け選好最適化(WPO)手法でファインチューニングされた大規模言語モデルで、オフライン方策選好最適化の効果を向上させています。
ダウンロード数 15
リリース時間 : 8/8/2024

モデル概要

このモデルはWPO手法を採用し、選好ペアの再重み付けによりオフラインとオンラインデータの分布ギャップを縮小し、トレーニングプロセスを最適化します。主にテキスト生成と対話タスクに使用されます。

モデル特徴

重み付け選好最適化(WPO)
現在の方策下での確率に基づき選好ペアを再重み付けすることで、オフラインデータをオンラインデータに近づけ、分布ギャップ問題を解決します。
混合データトレーニング
gemmaモデルのオンラインサンプリング出力とGPT-4-turboの出力を組み合わせ、ArmoRM-Llama3-8B-v0.1でスコアリング選択を行っています。
効率的なトレーニング
追加コストなしでトレーニングプロセスを最適化し、モデル性能を向上させています。

モデル能力

テキスト生成
対話システム
選好学習

使用事例

対話システム
インテリジェントアシスタント
高品質な対話アシスタントの構築に使用可能
AlpacaEval評価で76.73%のLCスコアを獲得
教育研究
選好学習研究
オフライン方策選好最適化手法の研究に使用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase