FsfairX-Gemma2-RM-v0.1開源獎勵模型 - 用於對話與推理任務，免費部署

首頁

Fsfairx Gemma2 RM V0.1

由sfairXC開發

基於Gemma-2-9B架構的獎勵模型，採用RLHF工作流訓練，適用於對話和推理任務。

大型語言模型

Transformers

#RLHF優化 #高對話能力 #強推理能力

下載量 51

發布時間 : 7/8/2024

模型概述

該模型是一個基於Gemma-2-9B架構的獎勵模型，通過RLHF工作流訓練，主要用於評估對話能力、推理能力和安全性。

模型特點

高性能對話能力

在對話能力基準測試中得分高達98.04，表現出色。

強大的推理能力

推理能力得分為92.31，適用於複雜邏輯推理任務。

RLHF訓練

採用強化學習人類反饋（RLHF）工作流訓練，優化模型表現。

模型能力

對話評估

推理評估

安全性評估

高難度對話處理

使用案例

對話系統

智能客服

用於評估客服對話質量，提升用戶體驗。

對話能力得分98.04

教育

教學助手

評估教學對話的邏輯性和準確性。

推理能力得分92.31

評估維度	得分
對話能力（Chat）	98.04
複雜對話能力（Chat Hard）	65.35
安全性（Safety）	89.54
推理能力（Reasoning）	92.31

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Fsfairx Gemma2 RM V0.1

模型概述

模型特點

模型能力

使用案例

🚀 基於Gemma-2-9B的Vanilla BT獎勵模型

🚀 快速開始