P

Prometheus 8x7b V2.0

由prometheus-eval開發
Prometheus 2是基於Mistral-Instruct的語言模型,專注於細粒度評估和人類反饋強化學習(RLHF)的獎勵模型,可作為GPT-4評估的替代方案。
下載量 686
發布時間 : 2/20/2024

模型概述

該模型支持絕對評分(直接評估)和相對評分(成對排序),通過權重融合技術提升性能表現。

模型特點

權重融合技術
同時支持絕對評分和相對評分,並能提升每種評分格式下的性能表現
細粒度評估能力
可對語言模型輸出進行詳細的質量評估和反饋
人類反饋強化學習
可作為RLHF訓練中的獎勵模型使用

模型能力

文本生成
質量評估
反饋生成
成對比較

使用案例

模型評估
語言模型輸出評估
評估其他語言模型生成的文本質量
可作為GPT-4評估的替代方案
強化學習
RLHF獎勵模型
在人類反饋強化學習中作為獎勵信號提供者
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase