S

Skywork Reward Llama 3.1 8B V0.2

Skyworkによって開発
Llama-3.1-8B-Instructアーキテクチャを基に構築された先進的な報酬モデルで、80Kの高品質な嗜好ペアで訓練されており、複雑なシナリオにおける嗜好問題の処理に優れています。
ダウンロード数 25.99k
リリース時間 : 10/14/2024

モデル概要

このモデルはテキスト分類モデルで、対話応答の品質を評価・報酬するために特別に設計されており、数学、プログラミング、セキュリティなど多分野に適用可能です。

モデル特徴

高品質データ訓練
厳選された80Kの高品質嗜好ペアを使用して訓練されており、優れたモデル性能を保証します。
多分野カバレッジ
数学、プログラミング、セキュリティなど多分野をカバーし、複雑なシナリオにおける嗜好問題を処理できます。
精製データセット
精製されたデータセットv0.2バージョンを使用しており、RewardBench評価プロンプトとの汚染問題を回避しています。

モデル能力

テキスト分類
対話応答品質評価
多分野嗜好判断

使用事例

対話システム
対話応答スコアリング
対話システムで生成された応答の品質を評価し、最適な応答を選択します。
RewardBenchランキングの8Bモデルで1位を獲得しました。
教育
数学問題解答評価
学生の数学問題への解答品質を評価し、フィードバックを提供します。
正しい数学解答と誤った解答を正確に区別できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase