RLHF優化

# RLHF優化

RM R1 DeepSeek Distilled Qwen 32B

RM-R1 是一個用於推理獎勵模型（ReasRM）的訓練框架，通過生成評分標準或推理軌跡來評估候選答案，提供可解釋的評價。

大型語言模型

Transformers 英語

RM R1 Qwen2.5 Instruct 7B

RM-R1是一個用於推理獎勵模型（ReasRM）的訓練框架，通過生成評分標準或推理軌跡來評估候選答案，相比傳統獎勵模型在準確率和可解釋性上有顯著提升。

大型語言模型

Transformers 英語

RM R1 Qwen2.5 Instruct 14B

RM-R1是一個用於推理獎勵模型（ReasRM）的訓練框架，通過生成評分標準或推理軌跡來判斷候選答案，提供可解釋的評價。

大型語言模型

Transformers 英語

RM R1 Qwen2.5 Instruct 32B

RM-R1是一個通過推理軌跡生成進行獎勵建模的框架，相比傳統方法在準確率和可解釋性上有顯著提升

大型語言模型

Transformers 英語

Llama 3 OffsetBias RM 8B

基於OffsetBias數據集訓練的獎勵模型，針對評估模型中的偏差具有更強魯棒性

大型語言模型

Transformers 英語

Fsfairx Gemma2 RM V0.1

基於Gemma-2-9B架構的獎勵模型，採用RLHF工作流訓練，適用於對話和推理任務。

大型語言模型

Llama 3 8B SFR SFT R

基於LLaMA-3-8B的監督微調模型，由Salesforce開發，用於強化學習人類反饋（RLHF）工作流程中的監督微調階段。

大型語言模型

由約翰斯諾實驗室開發的70億參數醫學大語言模型，專為生物醫學領域優化

大型語言模型

Transformers 英語

Norgpt 3B Rfhl Summarization

基於NorGPT-3B模型，採用RLHF策略在挪威語新聞摘要數據集上微調的文本摘要模型

Transformers 其他

Distilroberta Base Rejection V1

基於distilroberta-base微調的文本分類模型，用於識別大語言模型生成的拒絕回覆

Transformers 英語

AmberSafe是基於LLM360/AmberChat進行安全微調的指令模型，屬於LLM360的Pebble系列，專注於提供安全的文本生成能力。

大型語言模型

Transformers 英語

Starling LM 7B Alpha

首個基於AI反饋強化學習(RLAIF)訓練的開源大語言模型，在MT Bench測試中表現優異

大型語言模型

Transformers 英語

Xwin LM 13B V0.2

Xwin-LM是基於Llama2開發的大語言模型對齊技術，在AlpacaEval基準測試中表現優異

大型語言模型

Xwin LM 70B V0.1

Xwin-LM是基於Llama2的強大語言模型，專注於大語言模型對齊技術，在AlpacaEval基準測試中表現優異。

大型語言模型

Xwin LM 7B V0.1

Xwin-LM是基於Llama2的大語言模型對齊方案，專注於提升模型的對齊能力，包括監督微調、獎勵模型等技術。7B版本在AlpacaEval基準測試中表現優異。

大型語言模型

Gpt2 Open Instruct V1 Anthropic Hh Rlhf

基於GPT2-open-instruct在Anthropic/hh-rlhf數據集上微調的對話模型，擅長響應對話場景中的提示

大型語言模型

Transformers 英語

Reward Model Deberta V3 Large V2

該獎勵模型經過訓練，能夠預測在給定問題下，人類會認為哪個生成的答案更好。適用於問答評估、RLHF獎勵評分和毒性回答檢測。

大型語言模型

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase