# RLHF微調

Dmind 1
MIT
DMind-1是基於Qwen3-32B打造的Web3專家模型,通過監督式指令微調與人類反饋強化學習專為Web3生態系統優化,在任務準確性、內容安全性和專家級交互對齊方面實現顯著提升。
大型語言模型 Transformers 支持多種語言
D
DMindAI
129
21
Llama 3.2 1B GGUF
Llama 3.2 是 Meta 發佈的 1B 和 3B 參數規模的多語言生成模型集合,針對對話場景優化,支持多種語言任務。
大型語言模型 支持多種語言
L
Mungert
643
3
Llama 3.2 3B Instruct QLORA INT4 EO8
Llama 3.2是Meta推出的多語言大語言模型,提供1B和3B兩種參數規模,支持多種語言任務,性能優於現有開源和閉源模型。
大型語言模型 PyTorch 支持多種語言
L
meta-llama
289
68
Llama 3.1 Nemotron 70B Instruct HF
英偉達定製的大型語言模型,旨在提升大語言模型生成回覆對用戶查詢的有用性。
大型語言模型 Transformers 英語
L
nvidia
29.98k
2,033
Llama 3 8B Japanese Instruct
這是一個基於日語對話數據集微調的Meta-Llama-3-8B-Instruct模型,專注於日語對話任務。
大型語言模型 Transformers 支持多種語言
L
haqishen
33
22
Fialka 13B V4
Apache-2.0
紫羅蘭系列語言模型專為遵循指令和維持俄語對話而訓練,第四代通過RLHF優化,具有更強的響應能力和更豐富的信息量。
大型語言模型 Transformers 其他
F
0x7o
95
5
Starling LM 11B Alpha
Starling-7B是一個通過AI反饋強化學習(RLAIF)訓練的開源大語言模型,基於Openchat 3.5微調,在MT Bench中表現優異。
大型語言模型 Transformers 英語
S
CallComply
103
15
Eleuther Pythia2.8b Hh Sft
Apache-2.0
基於Pythia-2.8b的因果語言模型,使用Anthropic人類偏好數據集進行監督式微調
大型語言模型 Transformers 英語
E
lomahony
205
1
Eleuther Pythia6.9b Hh Sft
Apache-2.0
基於Pythia-6.9b基礎模型,使用Anthropic的hh-rlhf數據集進行監督式微調訓練的因果語言模型
大型語言模型 Transformers 英語
E
lomahony
58
1
Llama 2 7b Hf
Llama 2是由Meta開發的70億參數規模預訓練生成文本模型,屬於開源大語言模型系列
大型語言模型 Transformers 英語
L
meta-llama
914.57k
2,038
Llama 2 70b Hf
Llama 2是由Meta開發的開源大語言模型系列,包含70億至700億參數規模,支持英文文本生成任務。
大型語言模型 Transformers 英語
L
meta-llama
33.86k
849
Stable Vicuna 13B GPTQ
StableVicuna-13B是基於Vicuna-13B v0模型,通過RLHF進行微調的對話模型,採用4位GPTQ量化格式
大型語言模型 Transformers 英語
S
TheBloke
49
219
Stable Vicuna 13b Delta
StableVicuna-13B是基於Vicuna-13B v0模型,通過人類反饋強化學習(RLHF)和近端策略優化(PPO)在多種對話和指令數據集上進行微調的產物。
大型語言模型 Transformers 英語
S
CarperAI
31
455
Deepspeed Chat Step3 Rlhf Actor Model Opt1.3b
基於OPT-1.3b模型,通過DeepSpeed-Chat框架進行RLHF訓練優化的對話生成模型
大型語言模型 Transformers 英語
D
zen-E
30
1
Bloom 560m RLHF SD2 Prompter
Openrail
基於RLHF微調的Stable Diffusion 2.0提示生成模型,可自動擴展或生成高質量圖像描述
文本生成 Transformers
B
crumb
31
12
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase