Gemma 2B Rewardmodel Baseline
Gemma-2b-itモデルをベースに、BT損失関数を用いてトレーニングされた評価モデルで、大規模言語モデル向けの高品質な小型評価モデルとして適しています
ダウンロード数 133
リリース時間 : 7/5/2024
モデル概要
このモデルはGemma-2b-itアーキテクチャをベースにした評価モデルで、BT損失関数を用いてトレーニングされ、トレーニングデータセットはpreference_700Kです。主に大規模言語モデルの出力品質を評価・選択するために使用されます。
モデル特徴
効率的な評価モデル
小型ながら効率的な評価モデルで、大規模言語モデルの出力品質を評価するのに適しています
BT損失関数によるトレーニング
Bradley-Terry(BT)損失関数を用いて最適化トレーニングを実施
多次元評価能力
対話能力、安全性、推論能力など複数の次元を評価可能
モデル能力
テキスト品質評価
対話能力評価
安全性評価
推論能力評価
使用事例
言語モデル評価
LLM出力品質評価
大規模言語モデルが生成するテキストの品質を評価
reward model benchmarkで73.7の総合評価を獲得
対話システム最適化
対話システムの応答品質を最適化するために使用
対話能力評価は94.1
コンテンツセキュリティ
コンテンツセキュリティフィルタリング
生成コンテンツの安全性を評価
安全性評価は79.6
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98