FsfairX-Gemma2-RM-v0.1オープンソース報酬モデル - 会話と推論タスクに使用、無料でデプロイ可能

ホーム

Fsfairx Gemma2 RM V0.1

sfairXCによって開発

Gemma-2-9Bアーキテクチャに基づく報酬モデルで、RLHFワークフローでトレーニングされ、対話や推論タスクに適しています。

大規模言語モデル

Transformers

#RLHF最適化 #高い対話能力 #強力な推論能力

ダウンロード数 51

リリース時間 : 7/8/2024

モデル概要

このモデルはGemma-2-9Bアーキテクチャに基づく報酬モデルで、RLHFワークフローでトレーニングされ、主に対話能力、推論能力、安全性の評価に使用されます。

モデル特徴

高性能な対話能力

対話能力ベンチマークテストで98.04点という高いスコアを獲得し、優れた性能を発揮します。

強力な推論能力

推論能力スコアは92.31で、複雑な論理推論タスクに適しています。

RLHFトレーニング

強化学習人間フィードバック（RLHF）ワークフローでトレーニングされ、モデルの性能を最適化します。

モデル能力

対話評価

推論評価

安全性評価

高難度対話処理

使用事例

対話システム

インテリジェントカスタマーサービス

カスタマーサービス対話の品質評価に使用され、ユーザー体験を向上させます。

対話能力スコア98.04

教育

教育アシスタント

教育対話の論理性と正確性を評価します。

推論能力スコア92.31

項目	スコア
Chat	98.04
Chat Hard	65.35
Safety	89.54
Reasoning	92.31

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Fsfairx Gemma2 RM V0.1

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Vanilla BTベースの報酬モデル（Gemma-2-9Bベース）

🚀 クイックスタート

報酬ベンチマーク結果

引用情報