Prometheus-7B-v2.0開源語言模型 - 替代GPT

首頁

Prometheus 7b V2.0

由prometheus-eval開發

普羅米修斯2是基於Mistral-Instruct的語言模型，專為細粒度評估和人類反饋強化學習設計，可作為GPT-4評估的替代方案。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #語言模型評估 #反饋生成 #RLHF獎勵模型

下載量 13.07k

發布時間 : 2/13/2024

模型概述

該模型支持絕對評分和相對評分兩種評估方式，通過權重合並技術提升性能表現，適用於語言模型生成內容的評估任務。

模型特點

雙模式評估

同時支持絕對評分(直接評估)和相對評分(成對排序)兩種評估模式

權重合並技術

通過創新的權重合並方法提升每種評分格式下的性能表現

細粒度反饋

能夠生成詳細的質量反饋和對比分析，而非簡單評分

模型能力

文本生成

質量評估

反饋生成

成對比較

使用案例

語言模型評估

生成內容質量評估

評估語言模型生成內容的質量並提供詳細反饋

可替代GPT-4進行自動評估

模型對比評估

比較兩個不同模型生成結果的相對質量

提供客觀的對比分析

強化學習

RLHF獎勵模型

作為人類反饋強化學習中的獎勵模型

提供細粒度的反饋信號

🚀 Prometheus 2

Prometheus 2 是在對基礎大語言模型（LLM）進行細粒度評估時，可替代 GPT - 4 的評估方案，同時也是基於人類反饋強化學習（RLHF）的獎勵模型。它使用 [Mistral - Instruct](https://huggingface.co/mistralai/Mistral - 7B - Instruct - v0.2) 作為基礎模型，在大量反饋數據上進行微調，並通過權重合並支持多種評估方式。

🚀 快速開始

參考鏈接

主頁：建設中
代碼倉庫：https://github.com/prometheus - eval/prometheus - eval
論文：https://arxiv.org/abs/2405.01535
聯繫方式：seungone@cmu.edu

概要

Prometheus 2 是在對基礎大語言模型（LLM）進行細粒度評估時，可替代 GPT - 4 的評估方案，同時也是基於人類反饋強化學習（RLHF）的獎勵模型。 plot

Prometheus 2 是一個以 [Mistral - Instruct](https://huggingface.co/mistralai/Mistral - 7B - Instruct - v0.2) 為基礎模型的語言模型。它在 [反饋集合](https://huggingface.co/datasets/prometheus - eval/Feedback - Collection) 中的 100K 反饋和 [偏好集合](https://huggingface.co/datasets/prometheus - eval/Preference - Collection) 中的 200K 反饋上進行了微調。此外，它還通過權重合並的方式，支持絕對評分（直接評估）和相對評分（成對排名），並且令人驚喜的是，權重合並還提升了每種評估方式的性能。

✨ 主要特性

評估替代方案：在細粒度評估基礎大語言模型時，可作為 GPT - 4 的替代方案。
支持多種評估方式：通過權重合並，支持絕對評分和相對評分。
基於大量反饋微調：在 100K 反饋集合和 200K 偏好集合上進行微調。

📚 詳細文檔

模型詳情

模型描述

屬性	詳情
模型類型	語言模型
語言（NLP）	英語
許可證	Apache 2.0
相關模型	[所有 Prometheus 檢查點](https://huggingface.co/models?search=prometheus - eval/Prometheus)
更多信息資源	研究論文、[GitHub 倉庫](https://github.com/prometheus - eval/prometheus - eval)

Prometheus 有兩種不同的規模（7B 和 8x7B）。你可以在 [此頁面](https://huggingface.co/prometheus - eval/prometheus - 2 - 8x7b - v2.0) 查看 8x7B 規模的語言模型。同時，也可以在 [此頁面](https://huggingface.co/datasets/prometheus - eval/Feedback - Collection) 和 [此頁面](https://huggingface.co/datasets/prometheus - eval/Preference - Collection) 查看相關數據集。

提示格式

絕對評分（直接評估）

Prometheus 在輸入時需要 4 個組件：指令、待評估的響應、評分規則和參考答案。你可以參考以下提示格式：

###任務描述:
給定一個指令（可能包含輸入）、一個待評估的響應、一個得分為 5 的參考答案以及一個代表評估標準的評分規則。
1. 嚴格根據給定的評分規則，撰寫一份詳細的反饋，評估響應的質量，而非進行一般性評估。
2. 撰寫反饋後，給出一個 1 到 5 之間的整數分數。你應參考評分規則。
3. 輸出格式應如下："反饋: (為標準撰寫的反饋) [結果] (1 到 5 之間的整數)"
4. 請不要生成任何其他開頭、結尾和解釋內容。

###待評估的指令:
{orig_instruction}

###待評估的響應:
{orig_response}

###參考答案 (得分 5):
{orig_reference_answer}

###評分規則:
[{orig_criteria}]
得分 1: {orig_score1_description}
得分 2: {orig_score2_description}
得分 3: {orig_score3_description}
得分 4: {orig_score4_description}
得分 5: {orig_score5_description}

###反饋:

之後，你需要應用 Mistral 的對話模板（不應用可能會導致意外行為）。你可以在 [此鏈接](https://github.com/lm - sys/FastChat/blob/main/fastchat/conversation.py) 找到對話類。

conv = get_conv_template("mistral")
conv.set_system_message("You are a fair judge assistant tasked with providing clear, objective feedback based on specific criteria, ensuring each assessment reflects the absolute standards set for performance.")
conv.append_message(conv.roles[0], dialogs['instruction'])
conv.append_message(conv.roles[1], None)
prompt = conv.get_prompt()

x = tokenizer(prompt,truncation=False)

結果將生成一個反饋和評分決策，由分隔短語 [RESULT] 分隔。

相對評分（成對排名）

Prometheus 在輸入時需要 4 個組件：指令、2 個待評估的響應、評分規則和參考答案。你可以參考以下提示格式：

###任務描述:
給定一個指令（可能包含輸入）、兩個待評估的響應（分別表示為響應 A 和響應 B）、一個參考答案以及一個評估標準。
1. 嚴格根據給定的評估標準，撰寫一份詳細的反饋，評估兩個響應的質量，而非進行一般性評估。
2. 對響應 A、響應 B 和參考答案進行比較。不要分別檢查響應 A 和響應 B，直接指出它們之間的共性和差異。
3. 撰寫反饋後，指出更好的響應，即 "A" 或 "B"。
4. 輸出格式應如下："反饋: (為標準撰寫的反饋) [結果] (要麼是 "A" 要麼是 "B")"
5. 請不要生成任何其他開頭、結尾和解釋內容。

###指令:
{orig_instruction}

###響應 A:
{orig_response_A}

###響應 B:
{orig_response_B}

###參考答案:
{orig_reference_answer}

###評分規則:
{orig_criteria}

###反饋:

conv = get_conv_template("mistral")
conv.set_system_message("You are a fair judge assistant assigned to deliver insightful feedback that compares individual performances, highlighting how each stands relative to others within the same cohort.")
conv.append_message(conv.roles[0], dialogs['instruction'])
conv.append_message(conv.roles[1], None)
prompt = conv.get_prompt()

x = tokenizer(prompt,truncation=False)

結果將生成一個反饋和評分決策，由分隔短語 [RESULT] 分隔。

許可證

反饋集合、偏好集合和 Prometheus 2 生成的數據需遵循 OpenAI 的使用條款。如果你懷疑有任何違規行為，請與我們聯繫。

引用

如果你發現以下模型有幫助，請考慮引用我們的論文！

BibTeX:

@misc{kim2023prometheus,
    title={Prometheus: Inducing Fine-grained Evaluation Capability in Language Models},
    author={Seungone Kim and Jamin Shin and Yejin Cho and Joel Jang and Shayne Longpre and Hwaran Lee and Sangdoo Yun and Seongjin Shin and Sungdong Kim and James Thorne and Minjoon Seo},
    year={2023},
    eprint={2310.08491},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

@misc{kim2024prometheus,
    title={Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models},
    author={Seungone Kim and Juyoung Suk and Shayne Longpre and Bill Yuchen Lin and Jamin Shin and Sean Welleck and Graham Neubig and Moontae Lee and Kyungjae Lee and Minjoon Seo},
    year={2024},
    eprint={2405.01535},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}